今天小编分享的科学经验:国产3D虚拟人版《Her》「杀向」迪拜,欢迎阅读。
好久没出门,AI 产品的世界已经快进到这个样子了?
在全球三大 IT 展之一的GITEX GLOBAL上,量子位在某个展台,先后体验了和 Chatbot 聊天、用 AI 创建属于自己的 3D 数字人形象、和 3D 形象实时语言、肢体互动。
也就是说,《Her》有了 3D 虚拟人版。
旁边的展商过来神神秘秘说了句:
看上去是三个功能体验,但以后,这三个功能在产品里是要合并到一起的。
量子位还没反应过来,展商又补了一句:
创立这些数字形象,是希望以后用户下线后,ta 们的数字形象还能接着在社区里帮 ta 们聊天,减少自己聊聊到不合适的好友浪费时间的情况。
啊……这……我……行吧,有了 AI,和人聊天都有预制版了。
如果我说这家展商是个中国公司,也许不少朋友立马能猜出来。
没错,它就是Soul。
量子位在现场拉着 Soul 的工作人员大聊特聊了一番,其中不仅仅有 Soul AI 某子板块负责人和他的组员,还被量子位捉到了这家公司的 CTO 陶明。
△Soul CTO 陶明
这么好的机会,那还等什么?体验完展台互动,直接再安排库库一顿聊。
Gitex 展会,Soul 它 Show 了啥?
整个 Soul 的展位上,主要互动区摆着三块体验螢幕。
面向展位从左至右,分别可以体验:
左边螢幕:与自己创建的 3D 数字人流畅互动
中间螢幕:创建能语音文本对话、多语言交流的逼真 3D 数字人形象
右边螢幕:和聊天机器人语音或文本聊天
量子位在这个展台前站了很久,发现在此驻足的人,更喜欢体验左边和中间的两个功能。
而且大家去 Soul 展台体验,仿佛有一个无形的规则,那就是选择先在中间的螢幕前探索 Soul 的实时 3D 建模功能。
掰开了讲,那就是现场拍一张体验者的照片,在几秒钟的时间内,通过分析 90 多个面部形状参数和 6 个属性参数,快速重建虚拟的面部特征,完成虚拟 3D 形象的生成。
然后,体验者就可以与 3D 形象对话了。
但光有语言的交流还不够——
到这个时候,大家就会(不自觉地)挪到左边那块螢幕前面。
螢幕上也是自己创造出的虚拟 3D 形象。基于实时的人体动作识别、数字还原以及多模态对话互動能力,现场可以实现 3D 虚拟人与真人的沉浸式互动。
多沉浸呢?由于配备了实时运动跟踪,你可以说一些话 or 摆动身体、四肢,来与螢幕那头的 ta 低延迟互動。
值得多提一嘴,得益于 Soul 自家多模态 AI 模型在背后的支持,这两个螢幕承载的 AI 体验,允许语音、文本和物理互動同时进行。
AI 社交,场景、模型的认知与感知都很重要
尽管这家公司已经推出了 Soul 海外版,但参加本次 Gitex,其实是 Soul 在海外展会上的第一次亮相,
" 从体验层面来说,海外产品希望给用户端创造更好的粘性。"Soul CTO 陶明解释道," 主要还是以 Soul 这个主平台,来传递我们关于 AIGC+ 社交的概念。"
陶明表示,以他所见,AI+ 社交这条赛道,无论国内外市场,都要有两个必要条件。
一,是要持续地继续往前发展。
二,是探索的场景和业务,其实现在还不是很明朗。
而 Soul 拥有的,是「人机对话」这个基础点(或者称为原子能力) 。
在 Soul 的理念中,因为用户和业务之间其实存在鸿沟,所以要做的事不是把原子能力直接推向用户,而是要建一个 AI being 和 Human being 共存的社区。
单点的聊天会在这个社区发生,但是社区无法靠单点聊天维持," 大模型六小强做的一些 AI 聊天产品,都有支持单点聊天的能力,但持续的聊天难以为继,这就是因为任何 AI 不在场景里,人机单点聊天其实门槛很高。"
Soul 更希望打造不同的场景(比如语聊房),利用一些规则和策略,让人和 AI 在一起社交,过程难辨真人还是 AI。
这里的社交不会局限在聊天这一件事情上,AI NPC 和真人用户共同做同一件事,也很容易构建彼此之间的链接。
如陶明所说,Soul 的 AI+ 社交理念,最基础的一点是 " 必须要保证人和 AI 在同一时空下 "。类似于现实世界和现实世界的仿真,人和人的仿真对 AI 和人建立联系非常重要。
" 如果只是单纯聊天这件事,不太成立……一定要要发现场景,才能够说能让用户有更好的体验。"
这一方面,Soul 是怎么基于理念来设计产品的呢?
举几个例子。
第一个,在人和人、人和 AI 的互動过程当中去打造更多的场景。
比如用户和 AI 聊天,你发一张照片让它知道你感冒了,然后就能围绕感冒这个话题继续对话,而不是非要硬找话题。
第二个,和 AI 语音通话时,它听到你周围的环境音,判断你在咖啡馆或者音乐派对上,话题也能自然而然地展开了。
这就不难理解为什么 Soul 在大模型方面坚持 GPT-4o 的方向,因为团队认为一个 AI,应当具有统一的感知能力和认知能力。
纯有认知能力,并不能给用户带来价值,因为用户是希望被感知到的。
而 o1 的方向同样重要,因为 o1 加强了大模型的认知能力,其实就能给用户带来很好的体验。
社交平台做 AI《Her》会有什么不一样吗?
在社交平台这条赛道上,Soul 是绝对的头部梯队玩家。很多人不知道的是,它也是国内最早将 AI 融入社互動动的平台之一。
App 上线之初,Soul 就开始搭建一些 AI 能力的基础建设,两个基于 AI 的引擎。
一个是灵犀引擎,基于 Soul 用户站内全场景画像的智能推荐系统,通过 AI 技术,持续挖掘有效特征,通过算法方式提高用户在内容方向的消费和互动体验,提高用户建立关系的效率和质量。
另一个是NAWA 引擎,为集 AI、渲染与影像处理于一体的集成化 SDK,提供 AR 视频技术、基于多模态感知与驱动的互動技术和基于重建的虚拟形象技术,能够输出包含 Avatar 表情驱动、美颜美妆、卡通化等数十种影像处理与 2D/3D 渲染能力的引擎。用它创建的个性化 3D 头像表现力更强,还能动起来。
2020 年(ChatGPT 掀起大浪之前),Soul 就开始启动对 AIGC 相关的算法研发工作,并在智能对话、影像生成、语音 & 音乐生成等方面有了能力积累。
Soul 在多模态领網域发力很早,2023 年 Soul 就推出自研垂类语言大模型 Soul X,垂直应用于平台上多元社互動动场景。
例如智能对话机器人 "AI 苟蛋 "、AI 辅助聊天、虚拟陪伴等诸多工具和功能什么的。
△在 Soul 上开启 AI 辅助聊天
当时的 Soul 是这么说的:
AIGC 带给社交的不仅仅是互動效率、互動质量和互動体验的提升,同时以智能体和虚拟人为代表的互動对象也在发生变革,这意味着社交出现代际的迭代,社交的范围也会被重新定义,社交产品的形态也在发生改变。
今年,Soul 持续开搞 "AIGC+ 社交 "。
目标很明确:
在有技术能力基础、有用户实际需求、认准 " 模应一体 " 方向的情况下,推动 AIGC 和社交场景的深度融合。
Soul 推出了最新的端到端多模态 AI 模型,该模型集成了文本、语音和视觉互動,具备超低延迟、声音拟真、情绪感知等特点。
端到端尤其显著地降低了聊天的延迟。
陶明披露,Soul 现在的语音对话延迟不到 200 毫秒," 这不再像以前那样是一个连续的过程,我们首先生成文本和影像,然后将它们转换为语音。现在,我们将语音和 NLP 统一到一个集成流程中,从而消除了滞后问题。"
而同时期的 " 数字孪生 " 功能,则允许用户根据过去的互動或自定义設定,创建自己的个性化虚拟版本。
现在,刚刚在 Gitex 上秀了一把的 Soul,又快宣布自己的新进展了。
陶明表示,预计到了 11 月,平台将推出全双工视频通话能力, Soul 的 AI NPC 就能 " 看得见了 "。
也就是说,下个月,用户们就能在 Soul 里实时和 AI 的视频聊天了,对方还是有形象、有表情、有记忆,会对前几天不经意咳嗽过一句的你,说感冒好了没有的那种。
这就很《Her》!
之前国内外很多团队都发过各种版本的《Her》,但这次的期待有所不同——
不是在期待语音是否最逼真、延迟是否最低,口型是否对得最好,而是期待,加入 AI 元素的社交平台公司,熟谙搞社交那一套,在这个人机互動的产品 / 功能上,会不会有特别的设计。
不过时间还没到,只有先期待一波咯~
关于 Gitex
Soul 参加的这个海外展会,GITEX GLOBAL 全球三大 IT 展之一,本周五在阿联酋迪拜落下帷幕。
这是第 44 届 GITEX GLOBAL,不出意外创下新高,规模迄今为止最大:
吸引了超过 6500 家参展商、1800 家初创企业、1200 名投资者以及来自 180 多个国家的政府参与。
连迪拜王室也组团莅临现场视察……
这阵仗,让本来就肩膀挨着肩膀的场馆现场更是水泄不通了。
尽管如此,量子位还是拿出 go shopping 的激情,在二十几个展馆里一个挨一个地认真逛。
终于,不仅打卡了很多中国企业出海来参展的展台,比如阿里、华为、腾讯、涂鸦智能、普渡机器人等等;
也看到了全球范围内很多 AI 公司的身影出现在现场,比如英国 AI 独角兽 Builder.ai(对没错,背后微软支持,但创始人一直官司不断的那家)、中国的智谱华章等。
当然,如果对电子方面感兴趣的朋友们,一定会逛得更快乐,现场连表情最丰富的机器人阿美卡和小鹏的飞行汽车都有,还有很多没太看明白设计(但中东土豪们肯定喜欢)的飞行器。
不简单啊不简单。
— 联系作者 —
>