今天小編分享的互聯網經驗:東哥數字人如何跨過“恐怖谷”,歡迎閲讀。
出品|虎嗅商業消費組
作者|苗正卿
題圖|視覺中國
劉強東 AI 數字人在 4 月 22 日下午第三次出現在京東采銷直播間。
和 4 月 16 日、19 日東哥數字人直播相比,4 月 22 日的直播增加了數字人助播以及多機位切換。京東雲言犀負責人向虎嗅透露,接下來團隊的長遠目标是希望打造出能夠 " 深度還原思想、認知的數字人 ",在這一計劃中,數字人不僅可以像真人一樣帶貨,甚至可以像真人一樣分享對世界的深層認知、能夠傳遞更真實的感情與情緒。" 但這可能需要更長的時間。"
有分析人士向虎嗅指出,眼下擺在京東數字人面前的 " 短期 " 挑戰可能并非技術側。" 京東肯定是希望數字人技術給更多品牌方提供服務,在這個過程中找到更多技術落地場景是關鍵,一方面是數字人到底能夠給京東直播間帶來多大的增量(即有多少品牌,願意選擇數字人帶貨),另一方面在非直播場景京東數字人能否有更廣闊的想象空間。"
另有 AIGC 資深從業者認為,目前在國内數字人直播領網域," 表情模拟和動作豐富度,是兩個技術核心考察點。具體來説,是唇形以及動作仿真模拟。目前國内垂直于這一領網域的技術型公司有硅基智能等代表,而在互聯網大廠中,京東、阿裏、字節等都在布局和發力相關技術。" 該人士認為,整體看這個賽道的關鍵競争點依然是三要素:算力、算法以及數據," 互聯網大廠中,京東的底層優勢是數據。"
京東雲言犀負責人告訴虎嗅,4 月 16 日直播後,有多個品牌找到他們詢問合作的可能性,這也讓他有了一些新的思路。" 現在很多科技圈、車圈、互聯網圈 CEO 開始做短視頻、直播,在這個風口裏,數字人技術可能有很多可以嘗試的地方。"
東哥為何自己上?
虎嗅獲悉,在 2023 年下半年,京東雲言犀團隊基于言犀大模型更新了數字人產品,并嘗試了零售、金融、健康等多個領網域。當時,京東雲言犀數字人直播主要發力的是零售,從帶貨數據和互動指數看,這一系列直播的表現超過預期。
這段早期的 " 測試 ",讓京東内部對于數字人直播這件事的興趣和重視度更高了。" 大約在春節前後,團隊想嘗試一下英語直播,因為我們此前推出的幾個數字人都是做中文直播,想試試多語言。" 京東雲言犀負責人表示。
2024 年春節後,京東雲言犀團隊開始發力推廣數字人產品,他們希望找到一個讓京東數字人技術和產品成功 " 出圈 " 的方法。讨論後,他們決定大膽一點,讓老板試試。
京東雲言犀算法總監向虎嗅描述了這一過程:劉強東配合拍攝了視頻素材,在 " 外形 " 生成後,京東雲言犀再通過大模型去生成了劉強東數字人的聲音。在完成外形和聲音的測試調整後,京東内部就開始進行直播策劃了。
4 月 16 日劉強東數字人第一次直播時,京東雲言犀希望做一次圖靈測試。他們想了兩個方案:第一個方案是,同時做兩場直播,但一開始不説是數字人,看看用户能否分辨出;第二個方案是,對外宣傳 " 劉強東要直播了 ",但兩場直播都是劉強東數字人,看用户的接受度。
經過反復探讨,最終團隊選擇了第二個方案。
" 我們最關注的是 120 秒挑戰。我們通過數據分析以及心理學研究,很清楚用户看到一個形象時,前 120 秒至關重要,如果用户在 120 秒内發覺這是一個特别假的形象、或者對這個形象產生厭惡,往往會不再消費。這也是常説的恐怖谷效應,我們想測試的關鍵點是:120 秒内,用户是否會出現恐怖谷效應。" 京東雲言犀負責人向虎嗅表示。
從 4 月 16 日直播的數據看,京東雲言犀的 120 秒挑戰是過關的:在直播的第一小時内,總 GMV 達到 5000 萬元。" 我們發現,很多用户似乎沒有意識到這是數字人。" 京東雲言犀負責人説。
目前處于第二階段
據京東雲言犀負責人透露,眼下言犀數字人發展到了第二階段。" 第一階段,是向真人看齊,這類數字人可以在黃金時段之外直播帶貨,這些數字人可以對產品進行清晰的介紹;第二階段可以媲美真人,并承擔一些獨立任務,比如在黃金時段講解爆品;第三階段的數字人要融合真人的文化背景和思維邏輯,可以視為真人的數字分身。"
虎嗅獲悉,京東雲言犀數字人技術會根據不同的場景,采取復合技術方案,其中有兩個常見的技術路線:其一是完全端到端的生成,即在生成數字人過程中并不在任何環節進行顯示建模;另一種,則是上文提及的利用一張照片或者 3~5 分鍾視頻素材,對人臉建 3D Mesh 模型,然後再去控制他的表情、唇型,然後再做紋理的渲染。這兩個方案其實團隊在不同場景裏都會去用。
最大的技術難點,是大姿态:即數字人擁有復雜的唇形、仿真動作、微表情。" 如果想實現大姿态數字人,首先會遇到光線挑戰,視覺上很容易發現打光不均勻,會讓用户覺得數字人身上一塊白一塊黑;以及會遇到唇形挑戰,這是核心難點,大姿态數字人并不會一直正對着鏡頭説話,你需要在各個角度實現拟真效果。"
" 我們的核心技術思路是端到端:建模 - 驅動 - 渲染的一體化。和 Sora 的思路很像,但區别在于 Sora 一開始就聚焦于通用内容視頻方案,而言犀大模型聚焦于人物視頻生成。未來我們将可能參考部分 Sora 技術,按效果優先,逐步擴展覆蓋的領網域。" 京東雲言犀負責人説。
在這個路徑中,模型的推理優化以及計算效率是另一個關鍵點。京東雲言犀的大模型項目組裏,有一個單獨的戰鬥小組負責推理優化。相關人士告訴虎嗅,行業内常見的模型蒸餾和模型量化,一般是做 bit4 或者 bit8,而京東采取了不同的策略,通過 CPU,而非 GPU 進行推理,降低應用成本。
" 原來在大模型裏每一個模型參數應該是浮點數,一般是用 32 或 64 位來表示浮點數的一個參數的,但應用時浮點數一方面占的空間很大;二是運算比較慢,浮點運算相對比較慢,所以我們做量化就是用一個八倍的整數來近似模拟一個 16 位的浮點數。甚至我們可以做到用四位就可以來模拟一個參數。這樣一方面使得模型的大小會變小,同時使得整個運算速度會極大加快 " 上述人士表示。
有 AIGC 領網域資深從業者告訴虎嗅,目前國内可以做雲端數字人服務的公司并不少,而在文字合成聲音等領網域,大部分頭部互聯網公司的實力相近。" 從技術和落地看,京東言犀數字人在推理優化是有優勢的,而其海量商品數據對于數字人產品是一個關鍵助力,它可以針對不同產品去更快速、高效地做優化。"
尚需解決的挑戰
互動能力更新以及挖掘更多商業化場景,是京東雲言犀數字人尚需解決的。
過去幾次直播,京東雲言犀團隊和京東采銷直播間一直深度協作:簡單來説,京東雲言犀團隊負責數字人技術、呈現,并根據每一次直播的效果去優化,比如第三次直播時劉強東數字人的互動效果比第一場直播明顯更好;而京東采銷直播間則負責選品、運營等一系列 " 業務側 " 工作,過去三場直播中京東采銷直播間在選品上以平台爆品為主。
在互動方面,目前京東雲言犀數字人尚無法媲美真人互動。在過去的幾次直播中,除了通過文字彈幕用户留言外,劉強東數字人有時會針對一些共性問題做回答。但相比于真人直播間常見的 " 插科打诨 "、" 玩梗互動 ",目前的數字人尚顯 " 稚嫩 "。" 比如很難像董宇輝那樣,針對一個產品,突然有了靈感,開始講文學、文化,目前還無法做到這一點,也就是很難讓數字人有真正的思想與意識。"
另一個挑戰是場景。
據京東雲言犀團隊人士透露,他們目前在直播之外,在短視頻等領網域也服務了一些 B 端客户,比如在一些地產公司裏,會通過數字人自動生成講房視頻。不過相比于想象中能夠落地的場景,目前真實服務的場景相對有限。
618 或成為京東雲言犀數字人的 " 期中考試 ",據悉京東内部已經對數字人在 618 期間的表現以厚望,而 AI 也被京東 CEO 許冉視為 2024 年 618 的關鍵點。言犀數字人能否成為京東的關鍵引擎?一個多月後即将揭曉。
>