今天小编分享的互联网经验:东哥数字人如何跨过“恐怖谷”,欢迎阅读。
出品|虎嗅商业消费组
作者|苗正卿
题图|视觉中国
刘强东 AI 数字人在 4 月 22 日下午第三次出现在京东采销直播间。
和 4 月 16 日、19 日东哥数字人直播相比,4 月 22 日的直播增加了数字人助播以及多机位切换。京东云言犀负责人向虎嗅透露,接下来团队的长远目标是希望打造出能够 " 深度还原思想、认知的数字人 ",在这一计划中,数字人不仅可以像真人一样带货,甚至可以像真人一样分享对世界的深层认知、能够传递更真实的感情与情绪。" 但这可能需要更长的时间。"
有分析人士向虎嗅指出,眼下摆在京东数字人面前的 " 短期 " 挑战可能并非技术侧。" 京东肯定是希望数字人技术给更多品牌方提供服务,在这个过程中找到更多技术落地场景是关键,一方面是数字人到底能够给京东直播间带来多大的增量(即有多少品牌,愿意选择数字人带货),另一方面在非直播场景京东数字人能否有更广阔的想象空间。"
另有 AIGC 资深从业者认为,目前在国内数字人直播领網域," 表情模拟和动作丰富度,是两个技术核心考察点。具体来说,是唇形以及动作仿真模拟。目前国内垂直于这一领網域的技术型公司有硅基智能等代表,而在互联网大厂中,京东、阿里、字节等都在布局和发力相关技术。" 该人士认为,整体看这个赛道的关键竞争点依然是三要素:算力、算法以及数据," 互联网大厂中,京东的底层优势是数据。"
京东云言犀负责人告诉虎嗅,4 月 16 日直播后,有多个品牌找到他们询问合作的可能性,这也让他有了一些新的思路。" 现在很多科技圈、车圈、互联网圈 CEO 开始做短视频、直播,在这个风口里,数字人技术可能有很多可以尝试的地方。"
东哥为何自己上?
虎嗅获悉,在 2023 年下半年,京东云言犀团队基于言犀大模型更新了数字人产品,并尝试了零售、金融、健康等多个领網域。当时,京东云言犀数字人直播主要发力的是零售,从带货数据和互动指数看,这一系列直播的表现超过预期。
这段早期的 " 测试 ",让京东内部对于数字人直播这件事的兴趣和重视度更高了。" 大约在春节前后,团队想尝试一下英语直播,因为我们此前推出的几个数字人都是做中文直播,想试试多语言。" 京东云言犀负责人表示。
2024 年春节后,京东云言犀团队开始发力推广数字人产品,他们希望找到一个让京东数字人技术和产品成功 " 出圈 " 的方法。讨论后,他们决定大胆一点,让老板试试。
京东云言犀算法总监向虎嗅描述了这一过程:刘强东配合拍摄了视频素材,在 " 外形 " 生成后,京东云言犀再通过大模型去生成了刘强东数字人的声音。在完成外形和声音的测试调整后,京东内部就开始进行直播策划了。
4 月 16 日刘强东数字人第一次直播时,京东云言犀希望做一次图灵测试。他们想了两个方案:第一个方案是,同时做两场直播,但一开始不说是数字人,看看用户能否分辨出;第二个方案是,对外宣传 " 刘强东要直播了 ",但两场直播都是刘强东数字人,看用户的接受度。
经过反复探讨,最终团队选择了第二个方案。
" 我们最关注的是 120 秒挑战。我们通过数据分析以及心理学研究,很清楚用户看到一个形象时,前 120 秒至关重要,如果用户在 120 秒内发觉这是一个特别假的形象、或者对这个形象产生厌恶,往往会不再消费。这也是常说的恐怖谷效应,我们想测试的关键点是:120 秒内,用户是否会出现恐怖谷效应。" 京东云言犀负责人向虎嗅表示。
从 4 月 16 日直播的数据看,京东云言犀的 120 秒挑战是过关的:在直播的第一小时内,总 GMV 达到 5000 万元。" 我们发现,很多用户似乎没有意识到这是数字人。" 京东云言犀负责人说。
目前处于第二阶段
据京东云言犀负责人透露,眼下言犀数字人发展到了第二阶段。" 第一阶段,是向真人看齐,这类数字人可以在黄金时段之外直播带货,这些数字人可以对产品进行清晰的介绍;第二阶段可以媲美真人,并承担一些独立任务,比如在黄金时段讲解爆品;第三阶段的数字人要融合真人的文化背景和思维逻辑,可以视为真人的数字分身。"
虎嗅获悉,京东云言犀数字人技术会根据不同的场景,采取复合技术方案,其中有两个常见的技术路线:其一是完全端到端的生成,即在生成数字人过程中并不在任何环节进行显示建模;另一种,则是上文提及的利用一张照片或者 3~5 分钟视频素材,对人脸建 3D Mesh 模型,然后再去控制他的表情、唇型,然后再做纹理的渲染。这两个方案其实团队在不同场景里都会去用。
最大的技术难点,是大姿态:即数字人拥有复杂的唇形、仿真动作、微表情。" 如果想实现大姿态数字人,首先会遇到光线挑战,视觉上很容易发现打光不均匀,会让用户觉得数字人身上一块白一块黑;以及会遇到唇形挑战,这是核心难点,大姿态数字人并不会一直正对着镜头说话,你需要在各个角度实现拟真效果。"
" 我们的核心技术思路是端到端:建模 - 驱动 - 渲染的一体化。和 Sora 的思路很像,但区别在于 Sora 一开始就聚焦于通用内容视频方案,而言犀大模型聚焦于人物视频生成。未来我们将可能参考部分 Sora 技术,按效果优先,逐步扩展覆盖的领網域。" 京东云言犀负责人说。
在这个路径中,模型的推理优化以及计算效率是另一个关键点。京东云言犀的大模型项目组里,有一个单独的战斗小组负责推理优化。相关人士告诉虎嗅,行业内常见的模型蒸馏和模型量化,一般是做 bit4 或者 bit8,而京东采取了不同的策略,通过 CPU,而非 GPU 进行推理,降低应用成本。
" 原来在大模型里每一个模型参数应该是浮点数,一般是用 32 或 64 位来表示浮点数的一个参数的,但应用时浮点数一方面占的空间很大;二是运算比较慢,浮点运算相对比较慢,所以我们做量化就是用一个八倍的整数来近似模拟一个 16 位的浮点数。甚至我们可以做到用四位就可以来模拟一个参数。这样一方面使得模型的大小会变小,同时使得整个运算速度会极大加快 " 上述人士表示。
有 AIGC 领網域资深从业者告诉虎嗅,目前国内可以做云端数字人服务的公司并不少,而在文字合成声音等领網域,大部分头部互联网公司的实力相近。" 从技术和落地看,京东言犀数字人在推理优化是有优势的,而其海量商品数据对于数字人产品是一个关键助力,它可以针对不同产品去更快速、高效地做优化。"
尚需解决的挑战
互动能力更新以及挖掘更多商业化场景,是京东云言犀数字人尚需解决的。
过去几次直播,京东云言犀团队和京东采销直播间一直深度协作:简单来说,京东云言犀团队负责数字人技术、呈现,并根据每一次直播的效果去优化,比如第三次直播时刘强东数字人的互动效果比第一场直播明显更好;而京东采销直播间则负责选品、运营等一系列 " 业务侧 " 工作,过去三场直播中京东采销直播间在选品上以平台爆品为主。
在互动方面,目前京东云言犀数字人尚无法媲美真人互动。在过去的几次直播中,除了通过文字弹幕用户留言外,刘强东数字人有时会针对一些共性问题做回答。但相比于真人直播间常见的 " 插科打诨 "、" 玩梗互动 ",目前的数字人尚显 " 稚嫩 "。" 比如很难像董宇辉那样,针对一个产品,突然有了灵感,开始讲文学、文化,目前还无法做到这一点,也就是很难让数字人有真正的思想与意识。"
另一个挑战是场景。
据京东云言犀团队人士透露,他们目前在直播之外,在短视频等领網域也服务了一些 B 端客户,比如在一些地产公司里,会通过数字人自动生成讲房视频。不过相比于想象中能够落地的场景,目前真实服务的场景相对有限。
618 或成为京东云言犀数字人的 " 期中考试 ",据悉京东内部已经对数字人在 618 期间的表现以厚望,而 AI 也被京东 CEO 许冉视为 2024 年 618 的关键点。言犀数字人能否成为京东的关键引擎?一个多月后即将揭晓。
>