今天小編分享的互聯網經驗:“采銷東哥”開啟直播帶貨3.0時代,超百個企業CEO數字人定制需求正在訓練中,歡迎閱讀。
圖片來源:京東直播間
2023 年,在 ChatGPT 火爆出圈的帶動下,AI 又一次站在了科技舞台的 C 位。但彼時的生成式 AI 能力僅局限于 " 文生文 "。
2024 年 2 月,OpenAI 又向科技世界扔下一枚 " 核彈 ",推出了 " 文生視頻 " 大模型 Sora。Sora 可以根據用戶的文本提示創建最長 60 秒的視頻,該模型了解這些物體在物理世界中的存在方式,可以深度模拟真實物理世界,能生成具有多個角色、包含特定運動的復雜場景。繼承了 DALL-E 3 的畫質和遵循指令能力,能理解用戶在提示中提出的要求。Sora 的問世開啟了大模型應用的新時代。
除了 Sora 的問世以外,過去的近 5 個月時間内,大模型在行業側、產業側的應用不斷湧現,可以說今年注定是行業大模型快速落地的一年。對于直播行業,多模态大模型加持下的數字人也将拉開直播行業新時代的大幕。
而這歷史性的一刻已經發生。4 月 16 日,由京東雲言犀打造的 " 采銷東哥 "AI 數字人開啟直播首秀,同時亮相京東家電家居、京東超市采銷直播間,開啟了 AIGC 式的電商直播 3.0 時代。京東雲言犀負責人告訴钛媒體,采銷東哥首秀後就有超百個企業 CEO 數字人定制需求,正在加緊訓練中。
應用落地的一年," 卷 " 能力、" 卷 " 應用
如果說 2023 年是 AIGC" 卷 " 算力、" 卷 " 參數的一年,那麼從 2024 年開始,往後的幾年間就是 AIGC" 卷 " 應用、" 卷 " 能力的時代。京東雲言犀負責人對钛媒體表示,工程性的作用将會越來越重要,這些技術最終還是要在應用中體現真正的價值。" 我們希望一個技術出現以後,最終是能切實的落地到一個或多個場景上,而不僅僅是停留在 demo 上,數字人直播就是我們發掘出價值的應用場景之一。" 京東雲言犀負責人對钛媒體表示。
針對基于大模型打造的數字人在直播帶貨領網域的發展前景,京東言犀負責人告訴钛媒體,目前來看,數字人直播帶貨有很大的機會成為直播領網域的一個 " 爆點 "," 主要是因為數字人在内容層次上達到了一個新的水準,言犀又在運營方法論層面形成了深度積累,人們對數字人的接受度和信任度也較高。" 該名負責人如是說。
談及當下數字人應用時,京東雲言犀負責人對钛媒體表示,當下數字人在直播帶貨方面的價值,更多表現在人機協作共生方面。根據京東雲方面統計,人機接檔的直播間,數據表現明顯優于純人或純數字人的直播間," 現階段,數字人的價值不是取代真人,而是通過與真人接力的形式,打造‘日不落’直播間,挖掘閒時直播價值," 該名負責人指出," 目前,言犀數字人提高閒時轉化率超 30%。"
端到端技術,5 萬小時語音數據,大模型數字人應該長這樣
要知道數字人雖好,但真正做到實時的,具有互動能力的,且栩栩如生的數字人,可遠比利用 Sora 生成一個一分鍾的視頻需要的技術更難。
據了解,為了打造出逼真度更高的數字人,言犀早在 2 年多前就選擇了端到端的技術路線,即建模 - 驅動 - 渲染一體化,而巧合的是,Sora 也是選擇端到端的技術路線。
從目前端到端的技術路線看,主要分為兩大類:一類是完全的端到端;另一類是針對個别數據進行建模的。
其中,完全端到端的方式中間不對任何環節進行的建模,完全是隐性的。
而針對部分素材建模的方式會根據人臉額度素材進行建模,然後再控制數字人的表情、唇形,最後再進行紋理的渲染," 這兩種方案京東雲會根據不同的場景進行選擇,但都會用到。" 京東雲言犀負責人指出。
而在整個數字人建模的過程中,如何實現人物大姿态動作,是最難的一點。對此,京東雲言犀負責人對钛媒體表示,不能夠有大幅度的活動是現在很多數字人看着不像真人的主要原因之一,要讓數字人看起來和真人一樣,實現大姿态動作是必需的。
針對此,言犀數字人在訓練過程中,從數據采集、數據清洗等各個方面都進行了精細化聚焦,并對模型代碼進行了壓縮、量化,修改了模型精度。通過種種技術手段,讓最終呈現出來的數字人實現了可以像真人一般活動的能力。
除此之外,言犀數字人與 Sora 的不同之處還在于——言犀數字人需要進行實時同步的語音播報。對此,京東雲言犀負責人告訴钛媒體,京東雲為了訓練言犀數字人使用了超過 5 萬小時的多種多樣的素材語音,從而讓底層的基礎模型具備人類發音的基本模式,建立好語音模型," 通過超過 5 萬小時的數據訓練後,基礎模型已經具備了模仿任何人說話的能力,而且這種能力不僅局限于中文,甚至可以流利的說英語。" 該名負責人強調。
值得一提的是,經過 5 萬小時語音數據訓練後的基礎模型,僅需要再提供部分被模仿人的語音片段,不需要再對模型進行訓練,就可以直接合成被模仿人本來的音色和說話的表達方式,這也是為何 " 采銷東哥 " 能夠将京東集團創始人、董事會主席劉強東 " 宿遷普通話 " 學的惟妙惟肖的關鍵所在。
有了語音和視頻雙重加持,讓 " 采銷東哥 " 數字人在近期的幾次直播中毫無破綻,算是成功通過了圖靈測試。
雖然數字人具備強大的能力,但在京東雲言犀負責人看來,直播帶貨的本質還是要強調運營," 運營要以效果為導向主導規劃,從形象、表演、裝修、互動、展示等全面的進行每場直播的策劃,而產品和技術都必須緊密圍繞這套規劃來開展自己的設計和打造工作。" 該名負責人指出," 也是出于落實運營為王的核心方法論,言犀在今年也開始給一些重點品牌合作夥伴提供代運營服務,就是為了以這些頭部品牌為支點,摸索并快速擴散有效的數字人直播運營經驗,幫助行業能夠快速成長,快速裂變。"
更低成本、更低門檻是發展方向
大模型制作出的數字人雖然好用,但好用僅僅是開始,成本、門檻才是決定一個技術能否大規模應用落地的關鍵。随着 AIGC 快速的發展,業内已經有不同聲音——模型不是越大越好。
百度創始人、董事長兼首席執行官李彥宏曾公開指出,未來大型的 AI 原生應用将主要采用大小模型混合使用的方式。他解釋說,這種模式被稱為 MoE,即不依賴單一大模型來解決所有問題,而是根據不同場景選擇适合的模型。" 在一些特定場景中,經過精調後的小模型,其使用效果甚至可以媲美大模型。" 李彥宏如是說。
無獨有偶,360 集團創始人、董事長周鴻祎也曾指出,在具體的落地場景上,在把大模型做 " 大 " 的同時,做 " 小 " 也是一個重要的趨勢,使大模型能夠搭載在手機、電腦,各種物聯網設備上,尤其是智能網聯汽車,2024 年将更多的搭載大模型。
IBM 大中華區首席技術官、研發中心總經理謝東也曾公開表示,對于企業而言,應用模型的目的是希望其能以較低的成本,解決特定的問題," 對于企業級應用而言,模型反而是越小越好,因為越小越靈活,越小成本越低。" 謝東指出。
.......
上述行業大佬的言語不難看出,大模型雖然具備一定的能力,但是其應用成本、應用門檻較高,一般企業難以負擔應用大模型所產生的高昂成本。與此同時,相較于大模型而言,較小的模型能讓 AI 真正做到 " 術業有專攻 ",以最低的成本,實現最大的價值。
值得注意的是,京東雲言犀算法總監告訴钛媒體,目前言犀數字人可以支持雲上與本地部署兩種形式,其中,本地部署不僅支持 GPU,也支持僅 CPU 部署,且效果不會打折扣。這與目前市面上常見的大模型產品必須需要 GPU 能力加持相比,無論是在芯片采購成本,還是後期運營成本方面都有着明顯的優勢,降低了品牌商的使用門檻。" 京東雲提出的模型可以精确預估人物的姿态,以及對每個形象個性化的紋理建模和聯合優化,即便采用輕量化的模型,也能夠生成自然逼真的效果。" 京東雲言犀算法總監如是說。
" 目前,行業内也有很多輕量化的辦法,比如量化或進行模型壓縮,但京東雲言犀可以直接做到 CPU 推理,這對于成本的節約非常重要。" 京東雲言犀算法總監進一步指出。
而對于本身就采用言犀大模型的用戶而言,可以直接在雲端使用言犀數字人,京東雲言犀負責人告訴钛媒體,數字人是直接通過訓練生成式網絡模型實時生成的," 可以同時支持上千個直接間在雲端同步直播,進一步降低開播成本 30%。" 該名負責人強調。
談及未來,京東雲言犀負責人對钛媒體表示,如果将數字人分為三個等級,第一級是像真人看齊;第二級是媲美真人;第三極是能融合真人的思想、文化背景等," 目前言犀數字人已經達到媲美真人的級别,但對于數字人來說,還有很多路要走,要實現讓數字人具備真人的文化背景、思維邏輯,成為真正的數字分身還有很長的路要走。這也是言犀大模型将繼續嘗試的一個重要方向。" 該負責人指出。