今天小編分享的科學經驗:國產3D虛拟人版《Her》「殺向」迪拜,歡迎閱讀。
好久沒出門,AI 產品的世界已經快進到這個樣子了?
在全球三大 IT 展之一的GITEX GLOBAL上,量子位在某個展台,先後體驗了和 Chatbot 聊天、用 AI 創建屬于自己的 3D 數字人形象、和 3D 形象實時語言、肢體互動。
也就是說,《Her》有了 3D 虛拟人版。
旁邊的展商過來神神秘秘說了句:
看上去是三個功能體驗,但以後,這三個功能在產品裡是要合并到一起的。
量子位還沒反應過來,展商又補了一句:
創立這些數字形象,是希望以後用戶下線後,ta 們的數字形象還能接着在社區裡幫 ta 們聊天,減少自己聊聊到不合适的好友浪費時間的情況。
啊……這……我……行吧,有了 AI,和人聊天都有預制版了。
如果我說這家展商是個中國公司,也許不少朋友立馬能猜出來。
沒錯,它就是Soul。
量子位在現場拉着 Soul 的工作人員大聊特聊了一番,其中不僅僅有 Soul AI 某子板塊負責人和他的組員,還被量子位捉到了這家公司的 CTO 陶明。
△Soul CTO 陶明
這麼好的機會,那還等什麼?體驗完展台互動,直接再安排庫庫一頓聊。
Gitex 展會,Soul 它 Show 了啥?
整個 Soul 的展位上,主要互動區擺着三塊體驗螢幕。
面向展位從左至右,分别可以體驗:
左邊螢幕:與自己創建的 3D 數字人流暢互動
中間螢幕:創建能語音文本對話、多語言交流的逼真 3D 數字人形象
右邊螢幕:和聊天機器人語音或文本聊天
量子位在這個展台前站了很久,發現在此駐足的人,更喜歡體驗左邊和中間的兩個功能。
而且大家去 Soul 展台體驗,仿佛有一個無形的規則,那就是選擇先在中間的螢幕前探索 Soul 的實時 3D 建模功能。
掰開了講,那就是現場拍一張體驗者的照片,在幾秒鍾的時間内,通過分析 90 多個面部形狀參數和 6 個屬性參數,快速重建虛拟的面部特征,完成虛拟 3D 形象的生成。
然後,體驗者就可以與 3D 形象對話了。
但光有語言的交流還不夠——
到這個時候,大家就會(不自覺地)挪到左邊那塊螢幕前面。
螢幕上也是自己創造出的虛拟 3D 形象。基于實時的人體動作識别、數字還原以及多模态對話互動能力,現場可以實現 3D 虛拟人與真人的沉浸式互動。
多沉浸呢?由于配備了實時運動跟蹤,你可以說一些話 or 擺動身體、四肢,來與螢幕那頭的 ta 低延遲互動。
值得多提一嘴,得益于 Soul 自家多模态 AI 模型在背後的支持,這兩個螢幕承載的 AI 體驗,允許語音、文本和物理互動同時進行。
AI 社交,場景、模型的認知與感知都很重要
盡管這家公司已經推出了 Soul 海外版,但參加本次 Gitex,其實是 Soul 在海外展會上的第一次亮相,
" 從體驗層面來說,海外產品希望給用戶端創造更好的粘性。"Soul CTO 陶明解釋道," 主要還是以 Soul 這個主平台,來傳遞我們關于 AIGC+ 社交的概念。"
陶明表示,以他所見,AI+ 社交這條賽道,無論國内外市場,都要有兩個必要條件。
一,是要持續地繼續往前發展。
二,是探索的場景和業務,其實現在還不是很明朗。
而 Soul 擁有的,是「人機對話」這個基礎點(或者稱為原子能力) 。
在 Soul 的理念中,因為用戶和業務之間其實存在鴻溝,所以要做的事不是把原子能力直接推向用戶,而是要建一個 AI being 和 Human being 共存的社區。
單點的聊天會在這個社區發生,但是社區無法靠單點聊天維持," 大模型六小強做的一些 AI 聊天產品,都有支持單點聊天的能力,但持續的聊天難以為繼,這就是因為任何 AI 不在場景裡,人機單點聊天其實門檻很高。"
Soul 更希望打造不同的場景(比如語聊房),利用一些規則和策略,讓人和 AI 在一起社交,過程難辨真人還是 AI。
這裡的社交不會局限在聊天這一件事情上,AI NPC 和真人用戶共同做同一件事,也很容易構建彼此之間的鏈接。
如陶明所說,Soul 的 AI+ 社交理念,最基礎的一點是 " 必須要保證人和 AI 在同一時空下 "。類似于現實世界和現實世界的仿真,人和人的仿真對 AI 和人建立聯系非常重要。
" 如果只是單純聊天這件事,不太成立……一定要要發現場景,才能夠說能讓用戶有更好的體驗。"
這一方面,Soul 是怎麼基于理念來設計產品的呢?
舉幾個例子。
第一個,在人和人、人和 AI 的互動過程當中去打造更多的場景。
比如用戶和 AI 聊天,你發一張照片讓它知道你感冒了,然後就能圍繞感冒這個話題繼續對話,而不是非要硬找話題。
第二個,和 AI 語音通話時,它聽到你周圍的環境音,判斷你在咖啡館或者音樂派對上,話題也能自然而然地展開了。
這就不難理解為什麼 Soul 在大模型方面堅持 GPT-4o 的方向,因為團隊認為一個 AI,應當具有統一的感知能力和認知能力。
純有認知能力,并不能給用戶帶來價值,因為用戶是希望被感知到的。
而 o1 的方向同樣重要,因為 o1 加強了大模型的認知能力,其實就能給用戶帶來很好的體驗。
社交平台做 AI《Her》會有什麼不一樣嗎?
在社交平台這條賽道上,Soul 是絕對的頭部梯隊玩家。很多人不知道的是,它也是國内最早将 AI 融入社互動動的平台之一。
App 上線之初,Soul 就開始搭建一些 AI 能力的基礎建設,兩個基于 AI 的引擎。
一個是靈犀引擎,基于 Soul 用戶站内全場景畫像的智能推薦系統,通過 AI 技術,持續挖掘有效特征,通過算法方式提高用戶在内容方向的消費和互動體驗,提高用戶建立關系的效率和質量。
另一個是NAWA 引擎,為集 AI、渲染與影像處理于一體的集成化 SDK,提供 AR 視頻技術、基于多模态感知與驅動的互動技術和基于重建的虛拟形象技術,能夠輸出包含 Avatar 表情驅動、美顏美妝、卡通化等數十種影像處理與 2D/3D 渲染能力的引擎。用它創建的個性化 3D 頭像表現力更強,還能動起來。
2020 年(ChatGPT 掀起大浪之前),Soul 就開始啟動對 AIGC 相關的算法研發工作,并在智能對話、影像生成、語音 & 音樂生成等方面有了能力積累。
Soul 在多模态領網域發力很早,2023 年 Soul 就推出自研垂類語言大模型 Soul X,垂直應用于平台上多元社互動動場景。
例如智能對話機器人 "AI 苟蛋 "、AI 輔助聊天、虛拟陪伴等諸多工具和功能什麼的。
△在 Soul 上開啟 AI 輔助聊天
當時的 Soul 是這麼說的:
AIGC 帶給社交的不僅僅是互動效率、互動質量和互動體驗的提升,同時以智能體和虛拟人為代表的互動對象也在發生變革,這意味着社交出現代際的迭代,社交的範圍也會被重新定義,社交產品的形态也在發生改變。
今年,Soul 持續開搞 "AIGC+ 社交 "。
目标很明确:
在有技術能力基礎、有用戶實際需求、認準 " 模應一體 " 方向的情況下,推動 AIGC 和社交場景的深度融合。
Soul 推出了最新的端到端多模态 AI 模型,該模型集成了文本、語音和視覺互動,具備超低延遲、聲音拟真、情緒感知等特點。
端到端尤其顯著地降低了聊天的延遲。
陶明披露,Soul 現在的語音對話延遲不到 200 毫秒," 這不再像以前那樣是一個連續的過程,我們首先生成文本和影像,然後将它們轉換為語音。現在,我們将語音和 NLP 統一到一個集成流程中,從而消除了滞後問題。"
而同時期的 " 數字孿生 " 功能,則允許用戶根據過去的互動或自定義設定,創建自己的個性化虛拟版本。
現在,剛剛在 Gitex 上秀了一把的 Soul,又快宣布自己的新進展了。
陶明表示,預計到了 11 月,平台将推出全雙工視頻通話能力, Soul 的 AI NPC 就能 " 看得見了 "。
也就是說,下個月,用戶們就能在 Soul 裡實時和 AI 的視頻聊天了,對方還是有形象、有表情、有記憶,會對前幾天不經意咳嗽過一句的你,說感冒好了沒有的那種。
這就很《Her》!
之前國内外很多團隊都發過各種版本的《Her》,但這次的期待有所不同——
不是在期待語音是否最逼真、延遲是否最低,口型是否對得最好,而是期待,加入 AI 元素的社交平台公司,熟谙搞社交那一套,在這個人機互動的產品 / 功能上,會不會有特别的設計。
不過時間還沒到,只有先期待一波咯~
關于 Gitex
Soul 參加的這個海外展會,GITEX GLOBAL 全球三大 IT 展之一,本周五在阿聯酋迪拜落下帷幕。
這是第 44 屆 GITEX GLOBAL,不出意外創下新高,規模迄今為止最大:
吸引了超過 6500 家參展商、1800 家初創企業、1200 名投資者以及來自 180 多個國家的政府參與。
連迪拜王室也組團莅臨現場視察……
這陣仗,讓本來就肩膀挨着肩膀的場館現場更是水洩不通了。
盡管如此,量子位還是拿出 go shopping 的激情,在二十幾個展館裡一個挨一個地認真逛。
終于,不僅打卡了很多中國企業出海來參展的展台,比如阿裡、華為、騰訊、塗鴉智能、普渡機器人等等;
也看到了全球範圍内很多 AI 公司的身影出現在現場,比如英國 AI 獨角獸 Builder.ai(對沒錯,背後微軟支持,但創始人一直官司不斷的那家)、中國的智譜華章等。
當然,如果對電子方面感興趣的朋友們,一定會逛得更快樂,現場連表情最豐富的機器人阿美卡和小鵬的飛行汽車都有,還有很多沒太看明白設計(但中東土豪們肯定喜歡)的飛行器。
不簡單啊不簡單。
— 聯系作者 —
>