今天小編分享的科學經驗:AI説書媲美真人!豆包語音大模型更新長上下文理解,歡迎閲讀。
下面的兩個有聲書演播片段,你能分辨是真人還是 AI 合成的嗎?
實際上這兩個小説片段都是 AI 合成的,方案來自于豆包語音模型團隊。為了逼近一流真人主播的演播效果,豆包語音模型基于原有 Seed-TTS 框架進一步加入上下文理解,最終實現了高表現力、高自然度、高語義理解的小説演播效果。
豆包語音模型無需額外标籤,端到端合成聲音
市面上很多的語音模型已經能保證足夠自然的合成表現,但在音質、韻律、情感,以及多角色演繹上還有探索空間。特别是在小説演播場景下,想要媲美一流主播細膩的演播效果,要做好旁白和角色的區分演繹、角色情感的精确表達、不同角色的區分度等。
傳統的小説 TTS 生成方式,需要提前給對話旁白、情感、角色打标籤,而豆包語音模型則可以做到端到端合成,無需額外标籤标注。
△傳統語音模型和豆包語音模型合成鏈路的區别改進 Seed-TTS 技術,合成語音效果媲美真人
原始Seed-TTS(技術報告:https://arxiv.org/pdf/2406.02430)是一種自回歸文本到語音模型,主要分為 4 個主要模塊:Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder。
其中 Speech Tokenizer 解析了參考音頻信息,決定了合成音頻的音色和全局風格;Autoregressive Transformer 接收傳入的目标文本和 Speech Tokenizer 的輸出,進而生成出包含語義信息的 Semantic Token;Diffusion Model 會基于 Semantic Token 建模出包含語音信息的 Acoustic Token;Acoustic Vocoder 負責将 Acoustic Token 重建還原出最終的音頻。
△原始 Seed-TTS 架構
為進一步提升小説演播下的語音表現力和長文本的理解,豆包技術團隊對 Seed-TTS 進行了改進。
在數據上,小説音頻做章節級别處理,保證了長文下的語音一致性和連貫性。
在特征上,融合 TTS 前端提取的音素、音調、韻律信息和原始文本,提升發音和韻律的同時,保留小説語義。
在結構上,将 speech tokenizer 改為speaker embedding,解除 reference audio 對于語音風格的限制,因而同一個發音人能在不同角色上作出更貼合人設的演繹。
最後在目标合成文本之外,額外加入了上下文的信息,從而使得模型能夠感知更大範圍的語義信息,旁白和角色音表現更精準到位。
經過專業評測,優化後的豆包語音模型在小説演播場景,CMOS(Comparative Mean Opinion Score,與真人打對比分的一種主觀評分方式)已達一流主播的 90%+ 效果。
△優化後的豆包語音模型結構技術落地番茄小説,惠及聽書用户
豆包語音大模型團隊以王明軍、李滿超兩位演播圈大咖的聲音為基礎,采用新技術合成的千部有聲書,已上線番茄小説,題材覆蓋了歷史、懸疑、靈異、都市、腦洞、科幻等熱門書目類型。
據了解,未來豆包語音模型會繼續探索前沿科技與業務場景的結合,追求更極致的 " 聽 " 體驗。
豆包語音模型合成的小説音色效果
王明軍演播試聽:
李滿超演播試聽: