今天小編分享的互聯網經驗:别再狂吹數字人了,歡迎閲讀。
圖片來源 @視覺中國
文|商隐社,作者 | 阿空,編輯 | 齊馬
" 一個數字人可以頂 10-20 個主播!"
" 數字人自動回復顧客問題,傻瓜都可以操作!"
" 數字人形象靓麗,不用請假,不會離職,更不會塌房!"
"4980 終身使用,就按一年來算,一天只要 5 塊錢,24 小時自動產生收益!"
誘人的銷售話術,以假亂真的形象,低廉的試錯成本,讓沉寂多年的數字人突然成為一條火熱的賽道。
數字人真能降本增效,讓人一夜暴富嗎?
商隐社與多名業内人士聊了聊,得出的基本共識是:沒想好應用場景,别做數字人;運營不好真人,也做不好數字人。
被數字人收割的韭菜們
王老板平時做點小生意,身邊的朋友今年紛紛做起了抖音直播,他也眼饞。
一問成本,賺的錢還不夠養直播團隊:主播底薪 1 萬元加 5% 成交額提成,運營月薪 1 萬元,做鏈接的月薪 8000 元,還要配攝影、剪輯、采購、客服,并支付場地費。
王老板擺擺手:還是算了。
沒過多久,王老板碰上一個數字人銷售,聲稱只要 3 萬元就能買到一個數字人,還免費提供直播培訓。
" 你想啊,請一個主播多少錢?"" 一個主播還需要配一個運營,兩個人加起來,成本多少?"" 主播培養成熟跑了,你損失多少?"" 你對手做直播一年幾千萬,你不做行嗎?"" 未來是數字人時代,你們公司在這方面有沒有占坑?"
王老板聽了很心動,3 萬元説多不多,説少不少,萬一真能抓住風口呢。
沒多少猶豫,王老板爽快下單,很快得到了一個美女數字人主播。結果剛在抖音開播不到一分鍾,就被禁止直播一星期。
銷售口中的 " 日不落 " 直播間,還沒升起就落了。
小劉所在的汽車公司也打算定制一個數字人,以後放在一樓展廳,外人來參觀時可以跟它互動了解企業,顯得比較科技範兒。
在小劉看來,公司目前确定的數字人公司只是運氣好,其實能力不強,競标後除了要錢基本無法溝通。
一開始對方光開發費就收了 40 萬,後面再加上主機、展示櫃、收擴音設備、透明櫃等硬體設備,整個項目将近 70 萬。
此外,小劉所在公司目前跟對方籤了三年合同,後面如果還想續約,要加錢;除招手、揮手、歡迎、鼓掌等動作外,要想再加新動作,也需要加錢;對方提供 AI 配音,換的話也得加錢。
據小劉分析,乙方公司并沒有非常核心的技術,人物形象、語音識别、硬體設備這些都是外包的。到現在,項目已經開啓了兩個月,還停留在造型和聲音評審階段。
小劉逐漸相信,這個項目可能達不到預期效果。
某大公司員工定制了一個仙俠風格、帥氣逼人的數字人男主,美滋滋介紹給老板。
老板狂怒:這個做得是挺好看,它能給我們公司帶來什麼?怎麼跟我們的商業模式結合?未來怎麼規劃?
大家啞口無言。
數字人直播帶貨,靠譜嗎?
午夜時分,數字人悄悄登場。
姣好的形态、迷人的微笑、純正的播音腔,一切看起來非常完美。但沒過一陣兒,畫面和聲音就開始重復。
數字人之所以只在午夜出沒,是因為今年 5 月抖音發布了針對數字人的平台規範,明确指出:使用已注冊的虛拟人形象進行直播時,必須由真人驅動進行實時互動,不允許完全由 AI 驅動進行互動。
一紙規範,引發行業地震。這段時間,抖音封殺了大量數字人直播間,商家只有在審核比較松的時段才敢把數字人放出來。
網上有段很火的視頻看起來很詭異:凌晨某地,幾百平的房間空無一人,100 台電腦螢幕上,數字人們在瘋狂直播,仿佛一場沒有人類參與的 AI 狂歡。
想要躬身入局的商家,最懂得計算投入產出比。
目前,數字人直播間需要配備一名直播操控員和一名運營人員,再加上數字人使用費、場地費和設備費,每月成本至少 2 萬元。
此外,使用數字人直播還有随時可能被封的風險。如果帶來的流量轉化較少,獲得的收益将難以覆蓋運營成本。
對于小商户而言,數字人直播是一筆不小的負擔,老板往往頂好幾個人用,既是中控又是主播,每天播兩三個小時就夠了,用不着每月多花 2 萬塊錢。
抛開成本,很多人比較直觀的感受是,目前數字人直播比較影響用户體驗。數字人一看上去就有點假,它不會跟觀眾進行眼神交流,就像一個人在跟你説話,但是眼睛看向别處,讓人感覺特别不真誠。更不用説,數字人有時還一直官話套話重復循環。
現在數字人直播的客户群體是 40 歲以上的中老年客户,他們有時分辨不出螢幕裏的人是真是假。但年輕人對主播表現力的要求比較高,一看比較假就會劃走,流量轉瞬即逝。
而且,當用户在直播中提問時,數字人沒法及時回復,訓練不好還會胡説八道。真人主播在看螢幕鏡頭的同時,還可以掃一眼直播大屏,快速給出回復。
比如有人問,這個產品 45 歲能用嗎?我已經是兩個孩子的媽了。
數字人一般回答:能,好用,你現在就可以去拍。
而真人主播會針對問題做出延展性的想象。比如會先誇贊一番:你有兩個孩子好幸福!兩個孩子應該都很愛你吧!再去引導顧客下單。
抖音電商從業者王予燦對數字人仍持觀望态度,他向商隐社表達了兩點顧慮:" 數字人直播帶貨适合百元以下,能形成周期性復購的标品,不适合新興品牌。而且更适合淘寶這種貨架電商,而不是抖音這種興趣電商。"
興趣電商本身是靠情緒驅動的,刷到的商品大多可有可無,非标品多一些,會給商家帶來一定的溢價空間。
但像食品、美妝這些我們定期就要買的產品,遵循一個購買目标,多數情況下只要價格合适就直接買了,百元以下更不用糾結。這種不需要主播付出太多情緒去促成下單。當然數字人目前也做不到真人的情緒流動,看起來還是一個會説話的機器在推銷商品。
這就對品牌信任度提出了更高的要求。品牌知名度、開設店鋪時間長短、一年内的爆款數量、收獲了多少好評等,都會影響用户對產品和品牌的信任感。
如果顧客信任度足夠高,刷到之後思考時間比較短,就很容易下單。
但大多數中小商家沒有這樣優越的先天條件。在直播中,數字人的口型、互動仍不夠真實自然。
這其實在變相消耗品牌積累的信任感。直播間盲目用數字人,相當于慢性自殺。
" 所以説,事在人為,技術擺在這裏了,能不能用好還是看個人能力。如果真人直播都做不好,數字人直播也做不好。這説明細節沒有把控好,話術沒有打磨,流程沒有走明白,搞數字人沒用的。" 王予燦直言。
此外,還有很大的一個問題是,數字人直播欠缺健全的規則。數字人承擔的法律責任界定比較模糊,直播過程中沒辦法實時監控它的話術,有時對數字人的訓練不到位,會造成難以預料的影響。
解構數字人
同樣是數字人,為什麼有的能賣 3 萬,有的可以賣到幾十萬?數字人是如何工作的呢?我們來解構一下數字人。
這就要先從數字人的類型説起。數字人有 2D 和 3D 兩種,根據背後是否有人驅動又可以分為由 AI 驅動的虛拟人,以及由人驅動的 " 中之人 ",目前中之人大部分只有 3D 可以支撐。
2D 和 3D 是兩個不同的技術方向。3D 建模的成本非常高,還要做關節綁定,綁定的點越多,動作越靈活。這相當于打造了一個扯線布偶,用你的手去拉扯操縱布偶,驅動其做出面部表情和動作。
2D 不需要建模,生產過程也相對簡單,只要錄一段 5 分鍾的視頻,對視頻逐幀分析,再通過機器學習對真人形象和聲音進行 1:1 的克隆。7 個工作日後,你的專屬數字分身就搞定了。
2D 的核心思路是改變像素,相當于老照片修復。如果老照片缺了一角,通過生成式模型進行學習後,可以把缺失一角的像素給補齊。
3D 數字人可以在元宇宙裏轉身,旋轉跳躍不停歇。2D 雖然能夠學習人的動作和表情,但沒法做到跟人一模一樣,而且互動性沒有 3D 那麼強。
目前可用的 2D 數字人直播報價是 3 萬至 5 萬元 / 年,短視頻報價是 8000 元 / 年;3D 數字人經過建模或 IP 形象設計制作,直播報價超過 20 萬元。
數字人克隆的價格主要差在形象和聲音兩方面。形象包括形象來源、面部表情、身體動作,聲音包括語音語調、情感情緒等。
如果用開源的 AIGC 生成的虛拟形象,對清晰度和精度要求不高的話,最便宜兩三百的也有。
此外,公模也比定制的便宜。所謂 " 公模 ",是指數字人企業與模特經紀公司合作,集中采購肖像授權產出的通用數字人。目前視頻平台和數字人公司有很多場景的數字人模板,男生女生、職場户外的都有,可以直接租來用。
語音克隆有兩種。一種是用現在比較成熟的 TTS 技術合成語音,一種是定制,高端的價格在 1 萬到 5 萬不等。便宜的幾百塊,但是情感情緒、語音語調、説話節奏會差很多。
很多形象克隆便宜是因為沒有動作,只能坐在那裏,比較假。品質高一些的克隆會根據文本自動生成動作和表情。
短視頻生成還要另外按時長收費,一條一分半以内的短視頻報價在 50 元到 100 元,包月 5000 元左右,開源的可以做到十幾塊錢。
這些只是軟體的部分,數字人的呈現效果跟 GPU 的渲染有很大關系。買個數字人回來,如果電腦配置很低,體驗就會很差,出現卡頓、嘴不對音等問題。一般電腦硬體的标配在 1.2 萬元至 1.5 萬元之間。
數字人是怎麼運行的呢?
讓數字人説話很簡單,只要給到一段文字,就可以通過技術轉化成語音,聲音可以用免費的或者定制的,再配合形象即時生成一段視頻。
互動比較難,目前有三種方式。一種需要真人在後台留意數字人的直播過程,實時抓取問題,再準備好回答話術讓數字人説出來。
另一種可以提前針對產品的核心賣點準備好問題庫,只要觸發關鍵詞就能自動回復。
三是接入大模型,用 AI 實時生成文字,再轉化成語音。但現在大家對于通用大模型的使用比較謹慎,一般會輸入專業内容、設定信息圍欄,控制着數字人不要亂説話,回答更加精确。
此外,還可以用 AIGC 幫助生成視頻文案,拓展思路,這種要會問問題。
交流是有主導性的,誰發起話題,就按照誰的邏輯來延展。AIGC 就像擊劍比賽的對手,如果你的水平低,它的水平就低,如果你的水平高,它的水平也就高。它有時候會一本正經地胡説八道,大多是因為提問的問題不專業。
本地生活服務商戴平告訴商隐社:" 我們在訓練一個 AIGC 模型的時候,會先從專業的角度拆分知識點,再去提問。AIGC 出來以後,世界上就抽成兩種人,一種是 AIGC 的主人,他能力非常強,能把它訓練得非常好。另一種是 AIGC 的奴隸,他只會不停地問,泛泛地問,但不知道答案是對是錯。"
而且 AIGC 現在的回答非常書面化,這就要問得足夠細。比如賣全家桶,不要直接讓它 " 推薦一下全家桶 ",可以問它 " 下午朋友相聚的時候,在肯德基裏買全家桶的體驗是怎麼樣的?",這樣它給到的回答基本都是可以用的。
這樣大概 5 分鍾就可以生成一條短視頻,之前如果讓真人來拍,算上文案和錄制得花費好幾個小時。
現在大量操作及運營都比較差的公司,利用數字人的噱頭割韭菜,給行業造成了不好的影響。但這也是事物從無序向有序過渡的必經階段,後面真正做事的公司會凸顯其商業價值。
想象與數字人共存的未來
令人倍感意外的是,早在上世紀 80 年代,就已經出現了手工繪制、通過電視拍攝的數字人。後來逐步從電視電影走向網絡媒體,從極少數人的專業制作,變得越來越大眾化,每個人都可以擁有自己的數字分身或者數字助手。
前面只提到了數字人短視頻或者直播帶貨,實際上目前數字人可以利用的場景非常廣泛。
比如可以用洛天依這樣的純數字人,或者明星的數字分身進行娛樂表演,電視台報社還有虛拟主播。還可以在展館裏設定數字人講解員,在商場安置數字人導購員,劇本殺裏安排數字人 NPC。
有人做了數字人名片,跟 AR 技術結合,只要拿手機小程式掃一掃,就會跳出來這個人的形象跟你打招呼、自我介紹。同理,這也可以應用在錄取通知書裏,用數字人的方式讓新生了解學校。
現在還出現了數字人手辦——在一個可視的盒子裏嵌入偶像的 3D 數字人模型,它可以唱歌跳舞,也可以接入大模型跟用户對話。
此外,企業的數字員工可以跟内部系統綁定,員工可以跟它交流了解公司的規章制度,查詢各種信息等。
上面説的這些場景都屬于數字人產業鏈的應用層。中間層是數字人制作公司,提供基礎的平台能力,根據客户的個性化需求去生產數字人。
再往下是提供技術引擎的廠商,涉及數字人用到的算力、雲渲染。所謂引擎就是一種公共能力,提供生成形象、語音等的标準化組件。數字人生產廠商無需從零搭建平台,可以專心開發應用。
最難的還是應用層。實際上數字人技術沒有太大差别,大多數都是國外開源的技術。
所以,數字人不是一個技術問題,而是設計和運營的問題,關鍵是要想清楚用它幹什麼,怎麼能多發揮一些價值。以及如何做出 IP,讓數字人有靈魂、有性格、有品牌,進而更好地去做商業轉化。
這就像 MCN 公司發掘了一個很好看的素人,要成為網紅或者明星還需要一些包裝手法。
邱肅川在元宇宙行業深耕多年,他認為:" 數字人最終還是叫人,它還是社會分工的一個產物。在面向社會的時候,還是要提供特定的功能。它有什麼用,決定了它值多少錢。"
與此同時,數字人也存在侵犯隐私、電信詐騙等風險。一旦把自己的素材給了數字人公司,他們就有了你一套從聲音到形象的復刻素材,如果信息泄漏,影響會非常大。
我們現在很多支付都是人臉識别,如果我們的形象素材被非法使用,可能會導致财產流失。很多詐騙公司還會利用視頻造假或者用克隆的形象給親友打視頻電話,從而實施詐騙。
現在的解決方式是,如果數字人是商用,那每個數字人形象都必須有專項使用權的授權函,否則就不能用。
盡管如此,當前很多場景都是對現實世界的功能性替代和優化,數字人的想象空間還有待挖掘。
數字人更大的一個應用場景是在虛拟空間,相當于在現實世界裏開辟了一個平行宇宙,會產生新的需求,創造新的生產和消費活動。
這個空間裏有虛拟的數字經濟,有不同的人物、場景、經濟體、各種各樣的玩法。
這相當于進入了一場遊戲,只是遊戲裏的人物都是隔着螢幕才能看到,NPC 都是程式直接設定的。
而在虛拟世界,真人的數字分身和數字人共同享有一個遊戲世界,有經濟系統、文明系統、社交系統,也有獨特的價值創造。
之前邱肅川的朋友做過虛拟演唱會,第一季是虛實結合,取景都在上海大劇院,交響樂團也是實際的,所有參與演唱會的明星全都是數字明星。
後來第二季的時候他們就想:既然都進入數字世界了,為什麼還要遵循物理規律?我們的舞台為什麼不能搬到我們之前去不了的地方,比如在深海裏,在火山上,在太空裏?
" 你之所以願意進入這種故事裏,是因為它帶給你完全不一樣的體驗,讓你到去不了的地方,做原來做不了的事。這在邏輯上是可行的,就是要等到相關技術、協定、标準、規範真正被大規模解決。"
" 我不知道它什麼時候會爆發,這個過程要多長,但是它一定會走到那裏去。" 邱肅川相信。