今天小編分享的科學經驗:30分鍾音頻當數據,任何音色零門檻生成,產品免費體驗,歡迎閱讀。
這年頭,萬物都可以是 AI 生成的,
從文字,到圖片,亦或是目前火熱的虛拟主播,
設想下,你在直播平台看到的虛拟主播背後,有可能是這樣的畫面。
連聲音都可以是 AI 生成的,什麼時候變聲器已經能做到這個地步了,帶着一絲震驚,我們深入了解了這款產品背後的技術團隊,并得知了一個更加驚人的事實:
免費使用;
僅需 30 分鍾音頻;
任何人就可復刻任何人聲;
這意味着在未來聲音合成的門檻幾乎為零,而這項技術是由國内一家年輕的 AI 初創公司格子互動自研的大餅 AI 變聲,基于深度學習實現的聲音轉換(Voice Conversion)。
以往我們使用的傳統變聲器需要根據輸入聲源不斷調整參數,而 Voice Conversion 可以提供更穩定的聲音輸出,讓任何輸入人聲都高質量的轉換成目标音色(Any to One)。
在 Diffusion(影像)和 GPT(文字)卷到飛起的同時,AI 語音生成這片藍海正在逐漸成為 AIGC 領網域的下一個熱點。
近期山東文旅宣布為旗下主持人海藍生成了數字分身,并使用大餅聲音引擎的產品為其定制了聲音皮膚,引發了大量關注。
抑揚頓挫,委婉灑落。通過 VC 輸出的聲音極其細膩地還原了真人的語氣、情緒和聲音特征。
并且相較于非實時場景下對完整音頻的聲音轉換,實時聲音轉換有着更加豐富的落地場景。在 RTC 領網域,如直播、虛拟人等場景,變聲的結果需要在很短的延遲内實時流式的生成,才能保證音畫同步。
大餅團隊針對這一點,通過對模型進行不斷優化,使得實時轉換延遲低于 50ms,在實際使用過程中幾乎感受不到。
△大餅實時變聲流程示意
大餅已經以插件形式登錄聲網雲市場,在 RTC 領網域受到了不少關注和讨論。
微信 Steam 都能用
目前,大餅變聲已經适配了市面上大部分社交娛樂應用和遊戲。
不僅可以接入到微信、騰訊會議等社交辦公軟體中,同樣支持在英雄聯盟、CSGO、狼人殺、Steam等遊戲和遊戲平台中同步使用。
無論遊戲還是社交,都可以用各種聲線來戲弄好友。
當然,這不一定是 " 大餅變聲 " 最正确的打開方式…
一方面,變聲帶來了更豐富的可玩性和趣味性,另一方面,變聲也保障了用戶在線上社交時的隐私安全性,免去不必要的騷擾和歧視。
例如不少女性玩家曾經在玩遊戲因為性别而被對手,甚至隊友攻擊,選擇 Carry 角色卻被認為不夠格。
在線上遊戲尤其是 MMORPG 等角色扮演遊戲中,人們往往展現出和現實生活裡截然不同的性格和人格,而這正是因為這些玩家遊玩網絡遊戲的本質是希望在遊戲裡找到并扮演最完美、最理想的自己。
AI 變聲的出現可以讓玩家在遊玩過程中使用符合自己虛拟人設的聲音皮膚,從而更好的帶入角色,沉浸于遊戲世界中。
△擁有蘿莉、御姐、正太等 200+ 音色
我們上手體驗了一番,無需任何前置調試,一鍵就能完成變聲。
△客戶端演示
所以,這樣一款好用易上手的 AI 變聲工具背後究竟用到了哪些技術,而相比于以往傳統的變聲器,又有哪些不同呢?
AI 變聲将取代傳統變聲器
傳統軟體變聲是對語音信号進行處理,通過改變輸入聲音頻率,進而改變聲音的音色、音調。
由于每個人的音色特征不同,需要不斷調整聲音參數,而這也難以保證輸入音色效果穩定。
△傳統變聲器的工作原理
而聲音轉換(Voice Conversion)是根據發聲者的說話音頻,将音頻中的音色轉換到目标發音人上,并保持說話内容、韻律情感等一致。将發聲者的情感、抑揚頓挫、停頓等一并保留并輸出:
輸入樣例—中文:
聲音轉換—中文:
換一種語言也能自然地轉換,以日語為例:
輸入樣例—日語:
聲音轉換—日語:
通過 AI 輸出音色相較于傳統變聲器,有幾大明顯的優勢:
能獲得實時變聲 + 聲音克隆的效果,不需要使用者夾着嗓子發聲,不需要因為聲音不同而重新調試參數。任何人開啟引擎,都可以實時穩定變聲目标聲音。
并且在輸出聲音的質量上,也遠遠優于傳統變聲器。保留情感,抑揚頓挫的同時,支持多語種、方言的聲音轉換。
并且 AI 變聲不再需要物理機架以及聲卡這些額外的專業設備支持,大餅自帶虛拟聲卡,保證了傻瓜式的操作流程,将使用門檻和成本降到了最低。
不僅僅能換音色,還能消除口音,增強情感,甚至模仿各式各樣的腔調。
事實上,不少科技大廠和巨頭紛紛組建 AI 語音研究團隊,朝着語音合成的方向暗暗發力。
大餅聲音引擎,則是目前為止最集中在數字聲音資產方向的生成式模型產品。其背後的 AI 初創公司格子互動,成立于 2021 年。
創始人凌天格是一位畢業于美國卡耐基梅隆計算機系的 00 後,團隊的 CTO徐穎則是前阿裡巴巴語音算法專家,而 CMO劉建俊曾任職于新浪、盛大及恺英網絡 VP,有多年的互聯網經驗。
這支新老搭檔的團隊在短短一年半的時間内前後獲得源碼資本與奇績創壇的兩輪投資。
團隊專注于聲音領網域,語音合成的研究與商業化。在 AIGC 還未成為熱點的 2021 年就已經決定專注做聲音的 AI 生成。而這個頗具魄力,在業内已經小有名氣,極有 " 少年感 " 的團隊,平均年齡只有 26 歲。
短短半年時間,大餅變聲引擎完成了多項技術的突破和上線,發布了 PC 實時變聲客戶端、以 SDK 形式登錄聲網雲市場。
AIGC 的價值就是把創作的門檻降到最低。試想在虛拟與現實逐漸交融的未來,每個人都可以免費、零門檻地擁有自己想要的聲音,并在遊戲、元宇宙等場景中使用符合自己虛拟人設的聲音進行社互動動,自由開口,或許我們距離真正的 " 沉浸式 ",又更近了一步。
* 本文系量子位獲授權刊載,觀點僅為作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和產品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>