今天小編分享的教育經驗:a16z重磅預測:AI虛拟人将孕育眾多市值達數十億美元的行業巨頭,歡迎閱讀。
作者 |Justine Moore 是風險投資公司 a16z 的合夥人,專注于消費領網域,特别是 AI 公司的投資。她擁有斯坦福大學的經濟學學士學位和工商管理碩士學位。
來源 | Z Potentials 管理智慧 AI+
咨詢合作 | 13699120588
文章僅代表作者本人觀點
圖片來源:Youtube
摘要
AI 虛拟人模型架構從 CNN、GANs 演進至 Transformer+ 擴散模型,實現從單一面部驅動到半身 / 全身動态生成的跨越,口型同步與多模态協同表現顯著提升。
AI 虛拟人應用場景廣泛,個人消費者領網域為創意表達開辟新天地,中小企業可低成本制作廣告,大型企業在員工培訓等多領網域深度應用。
當下 AI 虛拟人在角色連貫性、面部動作、身體動作、與環境互動、實時應用等方面期待更多突破,未來有望催生諸多創新實時應用場景。
當 AI 不再僅僅局限于内容生成,而是邁向内容具身化時,世界将會發生怎樣的改變?當下,AI 已熟練掌握生成高度逼真照片、視頻及語音的技術,成功通過了視覺與聽覺維度的圖靈測試。而其下一個重大突破,正聚焦于 AI 虛拟人領網域:将特定的人臉與獨特的聲音融合,塑造出能夠自如交流的鮮活角色。
或許有人會想,能否簡單生成一張人臉影像,使其動起來并配上畫外音?實際操作遠非如此簡易。其中的挑戰,絕非僅停留在精準實現口型同步,更關鍵的是要确保面部表情與肢體語言協同一致,實現自然流暢的配合。試想,若一個人嘴巴因驚訝而大張,可臉頰與下巴卻紋絲不動,這場景該是多麼怪異;又或者,聲音滿含激動情緒,可對應的面部卻毫無波瀾,那麼精心營造的類人錯覺瞬間便會土崩瓦解。
值得欣喜的是,我們已然目睹這一領網域取得了切實進展。AI 虛拟人現已廣泛應用于内容創作、廣告推廣以及企業溝通等多個領網域。雖說當前的虛拟人大多只是能說話的頭部形象,雖具備一定實用性,但功能存在明顯局限。不過,回顧過去幾個月,諸多令人振奮的創新成果不斷湧現,足以預見,在不久的将來,該領網域必将迎來更為重大的突破與發展。
在本文中,基于對 20 餘款 AI 虛拟人產品的親身體驗與深度測試,我将為大家深入剖析目前切實可行的技術方案、未來的發展趨勢,以及當今市場上那些最為出類拔萃、令人印象深刻的 AI 虛拟人產品。
研究如何發展演進?
AI 虛拟人堪稱一個極具獨特挑戰性的研究課題。打造一個會說話的人臉形象,模型得掌握逼真的音素到視位映射,也就是語音中的音素,與相應口型動作視位間的關系。一旦這種映射出現偏差,嘴巴動作和聲音就會不同步,甚至顯得完全脫節。
問題的復雜之處還在于,說話時并非只有嘴巴在動。臉部其他部位會協同運動,上半身有時也會參與其中,甚至雙手也可能會有動作。而且,每個人都有獨特的說話風格。不妨想想自己說話的樣子,再對比一下喜歡的名人:即便說同一句話,雙方嘴巴的動作也會有差異。要是把自己的口型同步到名人臉上,效果會十分怪異。
過去幾年,從研究視角看,這一領網域發生了顯著變化。自 2017 年起,我研讀了 70 多篇有關 AI 會說話頭像的論文,清晰地看到模型架構的發展脈絡:從卷積神經網絡(CNNs)和生成對抗網絡(GANs),到基于三維的神經輻射場(NeRFs)和三維可變形模型等方法,接着演進到變換器(transformers)和擴散模型,而近期則發展為基于變換器架構的擴散模型(DiT)。以下時間軸标注了每年引用量最高的論文。
圖片來源:a16z
在 AI 領網域,虛拟人相關模型的生成質量與能力實現了飛躍式提升,和早期相比,簡直不可同日而語。早期方法極為受限,以單張人物照片為例,先将照片人物臉部下半部分遮住,再依據音頻輸入的目标面部特征點,生成新的嘴部動作。但這些模型訓練所依賴的高質量口型同步數據語料庫規模有限,且其中大多數數據都只是緊緊框定人物面部進行裁剪。就拿 " 讓奧巴馬對口型說話 " 這類效果來說,要實現相對逼真的呈現,需要收集目标人物長達數小時的視頻素材,并且最終輸出的結果在多樣性和表現力上都大打折扣。
反觀當下,模型的靈活性與強大程度令人驚嘆。同一視頻裡,它們既能生成半身乃至全身動作,塑造栩栩如生、會說話的人臉形象,還能讓背景呈現動态變化。這些新型模型的訓練方式,與傳統文本轉視頻模型更為相似,并且依托海量數據集展開。為了在各種動态中始終保持口型同步的精準度,模型運用了豐富多樣的技術手段。
早在今年 2 月,字節跳動推出的 OmniHuman-1 模型便率先展現出這種前沿趨勢(該模型近期已在 Dreamina 平台上線供用戶使用)。整個行業發展勢頭迅猛,3 月,Hedra 發布 Character-3 模型,經我們直接對比測試,該模型在大多數實際應用場景中表現堪稱頂尖。Hedra 的強大之處不止于人類角色,像為 Waymo(知名自動駕駛公司)打造會說話的虛拟形象也不在話下,用戶還能通過輸入文本,靈活設定角色的情感狀态與動作表現。
随着吉卜力工作室風格熱潮等行業趨勢的推動,圍繞 AI 動畫的全新應用場景如雨後春筍般不斷湧現。
AI 虛拟人在現實世界中的多元應用
AI 虛拟人的應用場景可謂包羅萬象。不妨設想,但凡涉及與角色互動,或是觀看人物講話視頻的場景,都有其用武之地。目前,從個人消費者到中小企業,乃至大型企業,各個領網域都已開始應用 AI 虛拟人。
這是一張早期的市場格局圖。該領網域正飛速發展,產品之間的差異界定仍較為寬泛。理論上,許多產品都能為大多數乃至所有這些應用場景打造虛拟人。然而在實際操作中,構建一套高效工作流程,并精準調校模型,使其在各個方面都能出類拔萃,絕非易事。以下,我們将逐一梳理市場各細分領網域利用 AI 虛拟人的具體實例。
個人消費者領網域:角色創作新風尚
現今,借助 AI,普通人僅需一張圖片,就能輕松打造動畫角色,這無疑為大眾的創意表達開辟了全新天地。對于渴望運用 AI 講述故事的人而言,這一突破意義非凡,怎麼誇贊都不為過。回顧早期的 AI 視頻,常被人吐槽為 " 圖片堆砌的幻燈片 ",症結之一就在于缺乏能自然對話的角色,語音往往也只是單調的畫外音形式。
而當創作的角色能夠開口交流,内容瞬間就鮮活有趣起來。除了傳統叙事視頻,人們還能借助 AI 創造出風格各異的作品,比如虛拟主播、AI 播客以及音樂視頻等。此處附上的精彩視頻,均出自 Hedra 平台。在 Hedra 上,用戶只需上傳一張初始圖片,再搭配一段音頻剪輯或者腳本,就能塑造出靈動鮮活、能說會道的角色形象。
要是你手頭的素材是一段視頻,Sync 工具可派上大用場,它能精準匹配口型,讓角色的面部動作與音頻嚴絲合縫。倘若你想借助真實人類表演驅動角色動作,Runway Act-One 和 Viggle 等專業工具便能助你一臂之力,實現創意構想。
在眾多運用 AI 創作角色動畫的創作者中,Neural Viz 是我的心頭好。其打造的《單一宇宙》系列,大膽暢想了一個由格盧倫人主宰的後人類宇宙世界,充滿奇妙想象。如今,投身這一領網域的門檻大幅降低,不難預見,AI 生成的精彩節目即将迎來爆發式增長,甚至會催生出一批獨具特色的虛拟網紅,這都只是時間問題。
随着虛拟人實時直播技術日益成熟,我們可以預見到,諸多面向消費者的企業,将會把虛拟人深度融入用戶界面,成為關鍵組成部分。設想一下,學習外語時,陪伴你的不再是冷冰冰、毫無感情的電子語音,而是一位形象生動、性格鮮明,能實時互動的 AI" 專屬教練 "。像 Praktika 這類先鋒企業,已然開啟了這一創新嘗試。假以時日,這種人機互動模式必将愈發普及、自然,融入大眾日常生活的方方面面。
中小企業:挖掘潛在客戶的新利器
在當今數字化營銷浪潮中,廣告領網域率先成為 AI 虛拟人大顯身手的 " 主戰場 "。以往,企業投放廣告往往得聘請專業演員,組建龐大制作團隊,耗費大量人力、物力與财力。如今,借助 AI,企業只需輕點滑鼠,就能讓栩栩如生的虛拟角色為自家產品搖旗呐喊。以 Creatify 和 Arcads 這類前沿公司為例,企業僅需提供產品鏈接,它們便能一站式搞定廣告制作全流程:從精心雕琢腳本,到篩選适配的輔助鏡頭、產品圖片,再到精準 " 選定 " 虛拟演員,一氣呵成,無縫銜接。
這一變革徹底打破了傳統廣告制作成本的壁壘,讓眾多中小企業得以跻身廣告營銷的舞台中央。在電商企業、遊戲廠商以及消費類應用開發公司中,AI 生成廣告的模式備受青睐,熱度居高不下。說不定,你在刷 YouTube、TikTok 時,不經意間就已被這類 AI 廣告 " 圈粉 "。當下,不僅面向消費者的企業嘗到了甜頭,B2B 領網域的企業也紛紛敏銳捕捉到商機,借助 Yuzu Labs、Vidyard 等先進工具,巧用 AI 虛拟人,開展内容營銷,或是進行精準個性化推廣,開拓業務新渠道。
在具體制作過程中,諸多產品會将虛拟演員形象(既可是現實人物的復刻,也能是原創獨特角色),與產品靓照、精彩視頻片段、适配音樂等多元素材有機融合。使用者既能自主把控各類素材的呈現位置、展示節奏,打造專屬創意風格;也能一鍵開啟 " 智能托管 " 模式,讓系統依據產品特性、營銷目标,自動生成吸睛視頻。腳本創作環節同樣靈活,既支持用戶親自操刀,融入獨特構思;也能借助 AI,快速生成專業腳本框架,為創作賦能。
大型企業:規模化内容產出的新引擎
對于大型企業而言,AI 虛拟人的應用範疇早已突破營銷邊界,在多個關鍵領網域深度賦能,發揮着不可小觑的作用。
•員工學習與發展:大型企業人員規模龐大,員工培訓教育需求繁雜。從新員工入職引導,到合規政策解讀、產品知識科普,再到技能進階提升,都離不開大量培訓教育視頻的支撐。傳統制作方式耗時費力,而 Synthesia 等前沿 AI 工具的登場,徹底革新了這一局面。它能将内容創作流程自動化,極大縮短制作周期,實現高效、規模化產出。以銷售崗位為例,銷售人員可借助 Anam 等產品中的虛拟人,反復模拟談判場景,沉浸式錘煉談判技巧,切實提升業務能力,讓培訓效果事半功倍。
•内容本地化定制:跨國企業客戶與員工遍布全球,為契合不同地區文化、語言差異,内容本地化至關重要。以往本地化工作繁瑣復雜,如今 AI 虛拟人讓這一難題迎刃而解。通過智能技術,企業能快速替換視頻中的語言、文化元素,精準适配不同地網域閱聽人。再搭配 ElevenLabs 等公司提供的先進語音翻譯技術,同一視頻可輕松轉化為數十種語言版本,且語音自然流暢,毫無違和感,助力企業跨越語言鴻溝,深度融入全球市場。
•高管形象拓展與影響力提升:在大型企業内部溝通與對外品牌塑造中,高管形象至關重要。借助 AI 虛拟人,企業能克隆高管形象,打造專屬數字分身。從此,產品發布、重要節日問候等場合,無需高管親臨拍攝,其數字分身就能精準傳遞信息,大幅拓展高管影響力輻射範圍。此外,Delphi、Cicero 等創新公司,還為企業思想領袖搭建起與大眾深度互動的橋梁,打破時空限制,讓領袖們輕松回應來自各方的疑問,進一步強化企業品牌的權威性與親和力。
AI 虛拟人的構成要素解析
打造一個令人信服的 AI 虛拟人,堪稱一項極具挑戰性的任務。每一個關乎真實感呈現的要素,都暗藏着棘手的技術難題。這可不單純是規避 " 恐怖谷效應 " 那麼簡單,實則涉及攻克動畫制作、語音合成以及實時渲染等領網域的關鍵難題。下面,我們深入剖析構建虛拟人所需的核心要素,探讨實現完美效果為何困難重重,以及當下取得的進展情況:
•面部:無論是復刻現實人物,還是塑造全新角色,都要求虛拟人的面部在不同畫面幀間保持連貫一致,且在說話時,面部動作能做到栩栩如生。不過,讓虛拟人依據所處情境,自然展現出相應面部表情,仍是一大挑戰。比如,虛拟人說 " 我累了 " 時,要同步做出打哈欠的動作,這絕非易事。
•聲音:聲音不僅要真實自然,還得與虛拟人的角色形象高度契合。試想,一個青春少女模樣的虛拟人,要是配上中年女性的聲音,那違和感簡直撲面而來。目前,我們接觸到的多數 AI 虛拟人企業,都青睐使用 ElevenLabs。這個平台語音庫資源豐富,還支持用戶克隆專屬自己的獨特聲音。
•口型同步:實現精準、高質量的口型同步,技術難度頗高。Sync 等企業就專注于攻克這一難題。而像 Meta 推出的 MoCha,以及 OmniHuman 這類模型,則依托海量數據集展開訓練,運用多元技術,讓面部生成過程與配套音頻緊密綁定,使每一幀面部畫面都能精準匹配音頻,實現口型同步。
•身體:虛拟人可不能只是個 " 光杆司令 ",只露出個腦袋飄在空中。新一代模型已能實現全身虛拟人的創建,且支持動作呈現。但不管是進一步拓展其功能豐富度,還是優化用戶使用體驗,當前仍處于起步摸索階段,還有很長的路要走。
•背景:虛拟人非孤立存在于真空環境中。其所處環境的光線效果、空間景深,以及與周遭物體的互動狀态,都得與整體場景協調統一。理想狀态下,虛拟人應具備與環境物體互動的能力,比如輕松拿起一件產品,真正融入場景之中。
倘若期望虛拟人能實時參與對話,比如加入 Zoom 視頻會議,還需增添以下關鍵要素:
•" 智能大腦 ":虛拟人得具備 " 思考 " 能力。當下支持對話功能的產品,大多允許用戶上傳知識庫,或接入現有知識庫。展望未來,更先進的產品版本有望賦予虛拟人更強的記憶能力,塑造鮮明個性。這樣一來,虛拟人便能清晰記得與用戶過往的交流内容,在互動中展現獨特風格。
•實時流傳輸:要在保證低延遲的前提下,流暢實現上述所有功能的實時流傳輸,技術難度極大。LiveKit、Agora 等產品已在該領網域取得一定突破,但要讓各類模型協同運作,同時将延遲控制在最低限度,仍面臨諸多挑戰。雖說像 Tolan 這種集語音與面部形象于一體的 AI 外星人夥伴,在實時流傳輸方面表現出色,但從行業整體來看,後續仍有大量優化工作亟待推進。
我們期待怎樣的突破?
AI 虛拟人領網域依舊蘊含着巨大的發展潛力,亟待我們去開拓與完善。以下幾個方面是當下關注的重中之重:
•角色的連貫性與可塑性:過去,AI 虛拟人的形象千篇一律,往往僅有單一、固化的外觀設定。無論是着裝風格、肢體姿态,還是所處的環境背景,均處于靜态,缺乏變化。如今,情況開始出現轉機,部分產品已嘗試為用戶提供多樣化選擇。以 HeyGen 推出的角色勞爾(Raul)為例,他擁有多達 20 種不同形象,令人眼前一亮。但我們期望未來能擁有更便捷、更強大的功能,讓用戶能夠随心所欲地對角色進行全方位塑造與變換,真正實現創意自由。
•面部動作與表情的進階:長久以來,面部表現一直是 AI 虛拟人難以攻克的薄弱環節。以往虛拟人的面部呈現效果生硬、呆板,猶如機械木偶,缺乏生氣與靈動性。不過,随着技術的迭代更新,這一局面正逐漸得到扭轉。例如,Captions 公司全新發布的 Mirage 模型,便成功實現了質的飛躍,能夠展現出更為自然逼真的面部外觀,以及更為豐富多元的表情神态。我們迫切期待未來的 AI 虛拟人能夠深度理解腳本中的情感内涵與語境信息,并做出精準、恰當的反應。想象一下,當角色在逃離怪物的緊張場景中,能瞬間流露出驚恐萬分的表情,無疑将極大增強虛拟人的沉浸感與感染力。
•身體動作的自然呈現:當前,絕大多數 AI 虛拟人在面部以下的身體部位動作匮乏,即便是最基礎的手勢動作,也極為罕見。現有的手勢控制方式多依賴于預先設定的程式邏輯,靈活性與真實感嚴重不足。以 Argil 為例,用戶僅能在有限的選項中,為視頻的不同片段挑選特定類型的肢體語言,難以滿足對自然互動的需求。展望未來,我們熱切期盼能夠見證更多自然流暢、貼合情境的身體動作,讓虛拟人在舉手投足間盡顯真實與生動。
•與 " 現實世界 " 的互動拓展:現階段,AI 虛拟人與周圍環境的互動能力近乎為零,這成為限制其應用場景拓展的關鍵瓶頸。短期内,一個切實可行且極具價值的目标是賦予虛拟人在廣告場景中與產品進行互動的能力,比如自然地拿起并展示產品。值得欣喜的是,Topview 公司已在這方面邁出了堅實步伐。随着模型性能的持續優化,我們對未來在這一領網域的更多突破滿懷期待。
•實時應用場景的全面拓展:在未來,AI 虛拟人有望深度融入人們的日常生活,催生諸多極具創新性與實用性的實時應用場景。設想一下,與 AI 醫生進行視頻問診,在專業的 AI 銷售助理陪伴下浏覽心儀產品,或是通過 FaceTime 與喜愛的電視劇角色暢聊……盡管目前在延遲控制與穩定性方面,距離人類自然互動的理想狀态仍存在一定差距,但技術的飛速發展已使我們越來越接近這一目标。
行業将駛向何方?
回顧過去幾年在基礎模型企業與 AI 應用領網域的投資歷程,我們深刻領悟到一個道理:準确預判某個特定領網域的未來走向,幾乎是一項不可能完成的任務。然而,有一點可以确信:随着底層模型質量的顯著提升,如今已能生成觀感良好、不再令人 " 不忍直視 " 的 AI 會說話頭像,這無疑為應用層的爆發式增長奠定了堅實基礎。
我們大膽預測,這一領網域将孕育出眾多市值達數十億美元的行業巨頭。屆時,市場将依據不同的應用場景與目标客戶群體,對產品進行精細化細分。例如,相較于粉絲為朋友制作一段簡單的動漫角色短視頻,企業高管若期望借助 AI 克隆體為客戶拍攝專業視頻,他們對產品的質量與真實感要求将更為嚴苛,同時也願意為此支付更高的費用。
此外,高效的工作流程同樣不可或缺。倘若你計劃借助 AI 虛拟網紅制作廣告,一款能夠自動提取產品詳細信息、精準撰寫腳本、智能添加輔助鏡頭與產品圖片、一鍵将視頻推送至各大社交平台,并實時評估廣告效果的綜合性平台,将成為你的得力助手。反之,若你致力于運用 AI 角色創作故事,那麼一款支持角色與場景保存復用、方便快捷拼接各類視頻片段的工具,無疑将更契合你的創作需求。
原文:AI Avatars Escape the Uncanny Valley
https://a16z.com/ai-avatars/