僅聽3秒，AI零樣本克隆人聲達到人類水平，情緒語調随意改

今天小編分享的科學經驗：僅聽3秒，AI零樣本克隆人聲達到人類水平，情緒語調随意改，歡迎閲讀。

零樣本、僅聽 3 秒提示音頻，即可 1:1 復刻人聲。

還能給生成人聲帶入情緒，比如" 悲傷 "的情緒：

"惡心" 的情緒：

這就是微軟與中國科技大學、香港中文大學（深圳）和浙江大學等機構合作，推出的NaturalSpeech 3系統。

該系統采用了創新的屬性分解擴散模型和屬性分解語音神經編解碼器 FACodec，從 " 表示 " 和 " 建模 " 兩個維度對語音數據進行深入研究。通過數據 / 模型的規模化方法，在多説話人數據集 LibriSpeech 上首次實現了零樣本的人類水平語音合成。

文本到語音合成（TTS）技術作為生成式人工智能的關鍵分支，在大型語言模型（LLM）的推動下近年來迎來了突飛猛進的發展。特别是随着語音合成技術的進步，它為大模型帶來了聲音互動的新維度，受到了業界的高度重視。在這一領網域内，微軟一直是技術研究與產品開發的積極參與者，旨在創造出高度自然的人類語音。為此，微軟啓動了 NaturalSpeech 研究項目 ( https://speechresearch.github.io/ ) 。

該項目為實現其目标，制定了分階段的實施路線圖：

首先，項目聚焦于在單個説話人語音合成上實現與真人相媲美的音質。2022 年，NaturalSpeech 1 版本在 LJSpeech 語音合成數據集上的表現，已達到人類錄音的音質水平。

随後，項目目标更新，旨在高效生成具有多樣化特征的人類語音，如不同説話人、韻律、情感和風格等。2023 年，通過引入擴散模型，NaturalSpeech 2 實現了零樣本的語音合成，标志着技術的進一步突破。

推出 NaturalSpeech 3 系統。

NaturalSpeech 3 的 "Natural" 的一大核心體現就是在 LibriSpeech 數據集上實現了零樣本語音合成達到人類水平。

NaturalSpeech 3 在 LibriSpeech 數據集上實現了零樣本語音合成對人類錄音的 -0.08 CMOS（此前的 SOTA 結果為 -0.18）以及超過人類錄音的 4.01 SMOS （人類錄音結果為 3.85，而此前的 SOTA 為 3.71），而在 WER 上，NaturalSpeech 3 實現了比人類錄音結果（1.94 WER）更低的 1.81 WER。

實驗結果表明，NaturalSpeech 3 的零樣本語音生成結果在 LibriSpeech 數據集上和人類錄音水平已經沒有統計學上的顯著差異。

NaturalSpeech 3 的自然不僅體現在能夠完美的克隆音色上，還體現在能夠自然的模仿提示音頻的韻律、情感等，讓 AI 生成的聲音具有人類的情緒。

NaturalSpeech 3 的技術實現允許對生成的語音進行細致的屬性控制，這種方法提供了對語音合成過程中各個維度的精準調節能力。

通過引入特定屬性的提示，比如采用語速較快的聲音樣本作為時長（duration）控制的參考，NaturalSpeech 3 能夠在保持其他聲音屬性不變的情況下，精确調整生成語音的語速。

這意味着，用户可以通過指定具有特定特征的樣本來引導語音生成過程，進而實現更加個性化和多樣化的語音輸出。例如下面這個例子：

NaturalSpeech 3 的成功秘訣來自于基于屬性分解的Codec+Diffusion 建模範式以及 Data/Model Scaling。

傳統 TTS 系統因訓練數據集有限，難以支持高質量的零樣本語音合成。而最近的研究通過擴大語料庫，雖有所進步，但在聲音質量、相似性和韻律方面仍未達到理想水平。

NaturalSpeech 3 提出創新的屬性分解擴散模型和屬性分解神經語音編碼器 FACodec，通過将語音分解成不同屬性的子空間并根據不同的提示（prompt）分别生成，有效地降低了語音建模難度，從而大大提高了語音合成的質量和自然度。

與此同時，NaturalSpeech 3 通過将訓練數據擴展到 20 萬小時（這是迄今為止公開的研究工作中使用的最大規模數據）以及将模型大小擴展到 1B（2B 甚至更大的模型正在訓練中），進一步提升語音合成的質量和自然度。

NaturalSpeech 3 采用的屬性分解神經語音編解碼器（FACodec）是一項創新技術。

FACodec 的核心在于将復雜的語音波形轉換為多個解耦子空間，這些子空間分别代表語音的不同屬性，如内容、韻律、音色和聲學細節。這樣的設計使得 FACodec 能夠更精準地控制和重構語音的各個方面，從而生成更自然、更高質量的語音輸出。

FACodec 通過以下幾個關鍵組件實現其功能：

語音編碼器：将原始的語音數據轉化到表征空間，為後續的屬性分解做準備。

音色提取器：專門負責提取語音的音色屬性，即説話人的獨特聲音特征。

分解向量量化器：分别針對内容、韻律和聲學細節，将這些屬性轉換成量化的、離散的表示形式。這一步是實現屬性間解耦的關鍵。

語音解碼器：根據從分解向量量化器得到的各屬性表示，重構出高質量的語音波形。

此外，FACodec 還結合了多種訓練技術，以優化這些組件的性能和相互作用，确保生成的語音既自然又符合目标屬性。

這種屬性分解和重構的方法不僅簡化了 TTS 對語音表示的建模過程，而且大大增強了語音合成的可控性和靈活性。用户可以通過調整不同的語音屬性來生成滿足特定需求的語音，如調整音色以模仿特定的説話人，或修改韻律以改變語音的情感表達。

目前語音開源項目 Amphion 已經支持 NaturalSpeech 3 的核心組件 FACodec，并且已發布預訓練模型。

NaturalSpeech 3 的另一個創新之處在于其對屬性分解擴散模型的采用，這種方法為語音合成帶來了新的維度。

通過使用統一的擴散模型并合集多個擴散階段，分别針對音素持續時間、韻律、内容和聲學細節進行建模，NaturalSpeech 3 能夠更細致且有效地控制語音生成的各個方面。

與傳統的語音合成方法相比，這種模塊化的擴散模型架構提供了更高的靈活性和精确度，使得生成的語音既自然又富有表現力。

在這種架構中，音色作為一種重要的語音屬性，其特征可以直接從提供給系統的提示（prompt）中提取，而不需要像其他屬性那樣通過獨立的模型來建模。

這種設計簡化了系統的復雜度，同時保證了音色的一致性和自然性。每個擴散模型只需要接受與其對應的語音屬性相關的提示，從而實現了對特定語音屬性的精準控制和可控性生成。

SOTA 的語音合成效果：經過大量的實驗驗證，NaturalSpeech 3 在語音質量、相似性、韻律和可懂度方面均超越了現有最先進的 TTS 系統。特别是，在 LibriSpeech 測試集上，NaturalSpeech 3 已經達到了人類錄音水平。

Data/Model Scaling：值得一提的是，NaturalSpeech 3 還将模型拓展到 1B 大小、數據量拓展到 20 萬小時左右，在提升合成語音質量，相似度，可理解性方等面的令人期待的結果，展示了較強的 Scaling 能力。

該研究團隊正在招聘以下方向的研究員和研究實習生：

1）音頻（語音 / 音樂 / 音效）理解和生成；

2）視頻（虛拟人 / 通用視頻）理解和生成；

3）大模型。

研究員工作地點：西雅圖；研究實習生工作地點：北京。

如有意向請聯系：譚旭（Xu Tan，[email protected]）。

傳送門：

[ 1 ] NaturalSpeech 3 論文鏈接 : https://arxiv.org/abs/2403.03100

[ 2 ] NaturalSpeech 3 Demo 演示 : https://speechresearch.github.io/naturalspeech3

[ 3 ] FACodec 預訓練模型 : https://huggingface.co/spaces/amphion/naturalspeech3_facodec

[ 4 ] FACodec 代碼 : https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec