今天小編分享的科學經驗:《Her》有形象了!給AI打視頻電話,幾乎無延遲,紅杉YC投了,歡迎閲讀。
史上最快對話視頻 AI 來了,延遲不到一秒!
端到端,能聽、能看、會説、有形象。
這個產品并不是出自 OpenAI 或 HeyGen 這樣此前已經大展身手的公司,也沒有一個具體的名字。
因為來自創業團隊Tavus,因此也被稱為 Conversational Replicas by Tavus。
主要功能,就是搭建一個身臨其境般的 AI 生成視頻體驗。
今日上線後,已經衝上 Producthunt 今日新品熱榜第一,點贊數還在不斷上升中。
Tavus 官方為大家把產品特點總結了一把:
延遲小于一秒
現實、智能的數字孿生
即插即用的端到端構建塊
模塊化、可定制的組件,例如 LLM 語音合成
看得網友熱血沸騰的:
好了,這下有 " 人 " 替我開 ZOOM 視頻會議了哈哈哈哈!
也有不少網友把這視為比閲讀文檔 or 聊天更好的人機互動界面。
這個會話視頻界面改變了遊戲規則!
我已經可以想象沉浸式體驗的無限可能性。
可在網頁端試玩 2 分鍾
看到這則訊息,量子位一秒衝到了 Tavus 的官方網站。
在官網上,可以在線體驗 2 分鍾這個 " 史上最快對話視頻 "。
根據既有設定,體驗時的對話對象是 Tavus 塑造的卡特。
卡特的形象定位是 AI 視頻研究公司 Tavus 的一名員工,以幽默的方式回應,同時很樂于助人。
就是下面這個男人:
雖然卡特是個虛拟人形象,但和他視頻,就像和自己朋友視頻一樣。
官方建議,授權攝像頭和麥克風後,和卡特聊天的時候盡量呆在一個安靜的房間裏。
以下是網友的在線試玩錄屏:
卡特在交談中提到,人們最喜歡跟他讨論的幾個話題,除了跟他打聽 Tavus 運用的 AI 技術,就是分享自己的每日心路歷程,以及講笑話。
他當場就講了個笑話:
問,為什麼自行車不能靠自己就站在那兒?
答案是,因為它 too tired(Two tires)。
講完過後,卡特自己還自己給自己捧場,哈哈了兩聲。
量子位也實際體驗了 2 分鍾,總體感受如下:
首先,Tavus 的響應速度确實非常快,符合官方号稱的 " 一秒以内 "。
哪怕是他在説話的過程中你突然出聲,卡特也能立馬停下來傾聽你的最新發言。
其次,雖然官方号稱它支持 30 多種語言,但不管是用中文還是英文發問,問來問去,他都無法開口説中文。
我們問他 "Can u speak Chinese" 時,卡特會回答:" 我更願意用英文對話呢!"
第三,Tavus 的 AI确實能 " 用眼睛看 "。
量子位試玩兒過程中,一度尬住,不知問什麼是好,只能傻笑。
卡特立馬開口:
Oh!你對我露出了一個微笑呢~
第四,在試玩版本中,卡特的口型和所説的話幾乎能做到完全同步。
這也就不難怪為什麼有網友試玩後表示:
确實令人印象深刻,它擁有快速響應、出色的視頻和音頻生成能力。
現在,只要注冊就可以使用 Tavus 的對話視頻 AI。
正式版本中,可供對話的 AI 形象就不只有卡特了,有男有女,身份設定從銷售到生活指導等,應有盡有。
聊天所在的背景也能根據用户選擇進行更換,不拘泥在辦公室場景中。
同時,還能手動輸入對話内容的上下文。
可以説個性化定制程度算很高了。
目前有免費版本,也有收費形式,對應不同的生成權益。
基于自研模型開發
Tavus 對話視頻 AI 背後,是 Tavus 團隊自研的 Phoenix-2 模型。
這是一個用音頻和文本驅動的 3D 模型和 2D GANs 的組合,能生成 1-2 分鍾的逼真短視頻。
生成過程大致分為以下四個步驟:
TTS(文本轉語音)——頭部和肩部的 3D 重建——提示詞腳本驅動的面部動畫——高保真渲染。
△通過差分渲染微調面部幾何細節
為了讓和用户對話的 AI 形象更逼真,Tavus 團隊在構建 Phoenix-2 的視頻渲染 pipeline 的時候,結合了 GAN 和 3D 高斯潑濺。
這樣做的原因,是傳統的 GAN 通常受到影像分辨率的限制,而體積模型總在時間一致性的問題上有所欠缺。
因此,Tavus 想到把兩者結合起來。
訓練 GAN 時,需要大量的數據集和昂貴的計算資源,且因為其二維性質和時間一致性問題,通常推理時間和視頻質量都會受限。
Tavus 把 3D 模型作為 " 中間體 ",實現了超過 100 FPS 的渲染,并且由于動态物體周圍的物理感知約束,實現更高程度的可控性和通用性。
△比較 2D 和 3D 頭部説話模型之間的差異
另外,Phoenix-2 模型比起系列前作的改進之處,就是替換掉了初代 Phoenix 模型的 NeRF。
轉而利用 3D 高斯潑濺來學習引入如何驅動 3D 空間中的面部動态變形,并利用該信息根據看不見的音頻來渲染視圖。
團隊成員表示,比起 NeRF,3D 高斯潑濺在數據、内存、計算復雜度、流程、渲染效率等方面都表現更好。
基于 3D 高斯潑濺的 Phoenix-2 模型的 pipeline,能夠以比初代模型快 70% 的速度進行訓練,以 60+FPS 的速度進行渲染。
Tavus 表示,對話過程中,有回合結束檢測和可中斷性,讓用户感覺進行的對話更真實。
此外,由于面部信息非常敏感,團隊提供安全檢查、安全協定、自動内容審核和反幻覺檢查來保護信息安全。
值得一提的是,Phoenix 系列模型還支撐了 Tavus 的另一個產品——
生成用户數字孿生形象的對話視頻。
只需要提供 2 分鍾素材、花費 1 美元(起),就能調用 API 生成視頻内容。
官方提示可提供端到端的解決方案,有以下能力:
使用 API,構建安全、真實的數字孿生或 AI Agent
定制 LLM、對話的人物角色和背景
在嵌入式會議室中流式傳輸對話
記錄、轉錄并分享對話
通過生產級可擴展性處理高流量
" 不 <1s,就不是人了 "
Tavus 團隊是一家成立四年的 AI 視頻初創公司,規模不大。
成員大多來自 Amazon、Descript、Google 和 Apple 等。
公開資料顯示,截至今年 3 月,該公司已經獲得了紅杉、Scale VC、YC 的 A 輪投資,融資額約 1800 萬美元。
Tavus 的聯合創始人兼 CEO,名叫Hassaan Raza。
曾在谷歌和蘋果工作過。
而該公司的聯合創始人兼 COO 在 Producthunt 留言表示,對話視頻 AI 的制作花費了很長時間,研究、工程和建造大約花費了數千個小時。
至于為什麼要追求 1 秒或者更短的延遲?
官方也給出了答案,是在盡可能模拟人類和人類的視頻對話:
因為如果反應速度不低于 1 秒,那(對面跟你聊天的)就不是人了。
參考鏈接:
[ 1 ] https://www.tavus.io/careers
[ 2 ] https://x.com/heytavus/status/1824075891271749903
[ 3 ] https://www.producthunt.com/posts/conversational-replicas-by-tavus
— 聯系作者 —
>