东哥数字人如何跨过“恐怖谷”

今天小编分享的互联网经验：东哥数字人如何跨过“恐怖谷”，欢迎阅读。

出品｜虎嗅商业消费组

作者｜苗正卿

题图｜视觉中国

刘强东 AI 数字人在 4 月 22 日下午第三次出现在京东采销直播间。

和 4 月 16 日、19 日东哥数字人直播相比，4 月 22 日的直播增加了数字人助播以及多机位切换。京东云言犀负责人向虎嗅透露，接下来团队的长远目标是希望打造出能够 " 深度还原思想、认知的数字人 "，在这一计划中，数字人不仅可以像真人一样带货，甚至可以像真人一样分享对世界的深层认知、能够传递更真实的感情与情绪。" 但这可能需要更长的时间。"

有分析人士向虎嗅指出，眼下摆在京东数字人面前的 " 短期 " 挑战可能并非技术侧。" 京东肯定是希望数字人技术给更多品牌方提供服务，在这个过程中找到更多技术落地场景是关键，一方面是数字人到底能够给京东直播间带来多大的增量（即有多少品牌，愿意选择数字人带货），另一方面在非直播场景京东数字人能否有更广阔的想象空间。"

另有 AIGC 资深从业者认为，目前在国内数字人直播领網域，" 表情模拟和动作丰富度，是两个技术核心考察点。具体来说，是唇形以及动作仿真模拟。目前国内垂直于这一领網域的技术型公司有硅基智能等代表，而在互联网大厂中，京东、阿里、字节等都在布局和发力相关技术。" 该人士认为，整体看这个赛道的关键竞争点依然是三要素：算力、算法以及数据，" 互联网大厂中，京东的底层优势是数据。"

京东云言犀负责人告诉虎嗅，4 月 16 日直播后，有多个品牌找到他们询问合作的可能性，这也让他有了一些新的思路。" 现在很多科技圈、车圈、互联网圈 CEO 开始做短视频、直播，在这个风口里，数字人技术可能有很多可以尝试的地方。"

东哥为何自己上？

虎嗅获悉，在 2023 年下半年，京东云言犀团队基于言犀大模型更新了数字人产品，并尝试了零售、金融、健康等多个领網域。当时，京东云言犀数字人直播主要发力的是零售，从带货数据和互动指数看，这一系列直播的表现超过预期。

这段早期的 " 测试 "，让京东内部对于数字人直播这件事的兴趣和重视度更高了。" 大约在春节前后，团队想尝试一下英语直播，因为我们此前推出的几个数字人都是做中文直播，想试试多语言。" 京东云言犀负责人表示。

2024 年春节后，京东云言犀团队开始发力推广数字人产品，他们希望找到一个让京东数字人技术和产品成功 " 出圈 " 的方法。讨论后，他们决定大胆一点，让老板试试。

京东云言犀算法总监向虎嗅描述了这一过程：刘强东配合拍摄了视频素材，在 " 外形 " 生成后，京东云言犀再通过大模型去生成了刘强东数字人的声音。在完成外形和声音的测试调整后，京东内部就开始进行直播策划了。

4 月 16 日刘强东数字人第一次直播时，京东云言犀希望做一次图灵测试。他们想了两个方案：第一个方案是，同时做两场直播，但一开始不说是数字人，看看用户能否分辨出；第二个方案是，对外宣传 " 刘强东要直播了 "，但两场直播都是刘强东数字人，看用户的接受度。

经过反复探讨，最终团队选择了第二个方案。

" 我们最关注的是 120 秒挑战。我们通过数据分析以及心理学研究，很清楚用户看到一个形象时，前 120 秒至关重要，如果用户在 120 秒内发觉这是一个特别假的形象、或者对这个形象产生厌恶，往往会不再消费。这也是常说的恐怖谷效应，我们想测试的关键点是：120 秒内，用户是否会出现恐怖谷效应。" 京东云言犀负责人向虎嗅表示。

从 4 月 16 日直播的数据看，京东云言犀的 120 秒挑战是过关的：在直播的第一小时内，总 GMV 达到 5000 万元。" 我们发现，很多用户似乎没有意识到这是数字人。" 京东云言犀负责人说。

目前处于第二阶段

据京东云言犀负责人透露，眼下言犀数字人发展到了第二阶段。" 第一阶段，是向真人看齐，这类数字人可以在黄金时段之外直播带货，这些数字人可以对产品进行清晰的介绍；第二阶段可以媲美真人，并承担一些独立任务，比如在黄金时段讲解爆品；第三阶段的数字人要融合真人的文化背景和思维逻辑，可以视为真人的数字分身。"

虎嗅获悉，京东云言犀数字人技术会根据不同的场景，采取复合技术方案，其中有两个常见的技术路线：其一是完全端到端的生成，即在生成数字人过程中并不在任何环节进行显示建模；另一种，则是上文提及的利用一张照片或者 3~5 分钟视频素材，对人脸建 3D Mesh 模型，然后再去控制他的表情、唇型，然后再做纹理的渲染。这两个方案其实团队在不同场景里都会去用。

最大的技术难点，是大姿态：即数字人拥有复杂的唇形、仿真动作、微表情。" 如果想实现大姿态数字人，首先会遇到光线挑战，视觉上很容易发现打光不均匀，会让用户觉得数字人身上一块白一块黑；以及会遇到唇形挑战，这是核心难点，大姿态数字人并不会一直正对着镜头说话，你需要在各个角度实现拟真效果。"

" 我们的核心技术思路是端到端：建模 - 驱动 - 渲染的一体化。和 Sora 的思路很像，但区别在于 Sora 一开始就聚焦于通用内容视频方案，而言犀大模型聚焦于人物视频生成。未来我们将可能参考部分 Sora 技术，按效果优先，逐步扩展覆盖的领網域。" 京东云言犀负责人说。

在这个路径中，模型的推理优化以及计算效率是另一个关键点。京东云言犀的大模型项目组里，有一个单独的战斗小组负责推理优化。相关人士告诉虎嗅，行业内常见的模型蒸馏和模型量化，一般是做 bit4 或者 bit8，而京东采取了不同的策略，通过 CPU，而非 GPU 进行推理，降低应用成本。

" 原来在大模型里每一个模型参数应该是浮点数，一般是用 32 或 64 位来表示浮点数的一个参数的，但应用时浮点数一方面占的空间很大；二是运算比较慢，浮点运算相对比较慢，所以我们做量化就是用一个八倍的整数来近似模拟一个 16 位的浮点数。甚至我们可以做到用四位就可以来模拟一个参数。这样一方面使得模型的大小会变小，同时使得整个运算速度会极大加快 " 上述人士表示。

有 AIGC 领網域资深从业者告诉虎嗅，目前国内可以做云端数字人服务的公司并不少，而在文字合成声音等领網域，大部分头部互联网公司的实力相近。" 从技术和落地看，京东言犀数字人在推理优化是有优势的，而其海量商品数据对于数字人产品是一个关键助力，它可以针对不同产品去更快速、高效地做优化。"

尚需解决的挑战

互动能力更新以及挖掘更多商业化场景，是京东云言犀数字人尚需解决的。

过去几次直播，京东云言犀团队和京东采销直播间一直深度协作：简单来说，京东云言犀团队负责数字人技术、呈现，并根据每一次直播的效果去优化，比如第三次直播时刘强东数字人的互动效果比第一场直播明显更好；而京东采销直播间则负责选品、运营等一系列 " 业务侧 " 工作，过去三场直播中京东采销直播间在选品上以平台爆品为主。

在互动方面，目前京东云言犀数字人尚无法媲美真人互动。在过去的几次直播中，除了通过文字弹幕用户留言外，刘强东数字人有时会针对一些共性问题做回答。但相比于真人直播间常见的 " 插科打诨 "、" 玩梗互动 "，目前的数字人尚显 " 稚嫩 "。" 比如很难像董宇辉那样，针对一个产品，突然有了灵感，开始讲文学、文化，目前还无法做到这一点，也就是很难让数字人有真正的思想与意识。"

另一个挑战是场景。

据京东云言犀团队人士透露，他们目前在直播之外，在短视频等领網域也服务了一些 B 端客户，比如在一些地产公司里，会通过数字人自动生成讲房视频。不过相比于想象中能够落地的场景，目前真实服务的场景相对有限。

618 或成为京东云言犀数字人的 " 期中考试 "，据悉京东内部已经对数字人在 618 期间的表现以厚望，而 AI 也被京东 CEO 许冉视为 2024 年 618 的关键点。言犀数字人能否成为京东的关键引擎？一个多月后即将揭晓。