大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

僅聽3秒,AI零樣本克隆人聲達到人類水平,情緒語調随意改

2024-04-14 简体 HK SG TW

今天小編分享的科學經驗:僅聽3秒,AI零樣本克隆人聲達到人類水平,情緒語調随意改,歡迎閲讀。

零樣本、僅聽 3 秒提示音頻,即可 1:1 復刻人聲。

還能給生成人聲帶入情緒,比如" 悲傷 "的情緒:

"惡心" 的情緒:

這就是微軟與中國科技大學、香港中文大學(深圳)和浙江大學等機構合作,推出的NaturalSpeech 3系統。

該系統采用了創新的屬性分解擴散模型和屬性分解語音神經編解碼器 FACodec,從 " 表示 " 和 " 建模 " 兩個維度對語音數據進行深入研究。通過數據 / 模型的規模化方法,在多説話人數據集 LibriSpeech 上首次實現了零樣本的人類水平語音合成。

文本到語音合成(TTS)技術作為生成式人工智能的關鍵分支,在大型語言模型(LLM)的推動下近年來迎來了突飛猛進的發展。特别是随着語音合成技術的進步,它為大模型帶來了聲音互動的新維度,受到了業界的高度重視。在這一領網域内,微軟一直是技術研究與產品開發的積極參與者,旨在創造出高度自然的人類語音。為此,微軟啓動了 NaturalSpeech 研究項目 ( https://speechresearch.github.io/ ) 。

該項目為實現其目标,制定了分階段的實施路線圖:

首先,項目聚焦于在單個説話人語音合成上實現與真人相媲美的音質。2022 年,NaturalSpeech 1 版本在 LJSpeech 語音合成數據集上的表現,已達到人類錄音的音質水平。

随後,項目目标更新,旨在高效生成具有多樣化特征的人類語音,如不同説話人、韻律、情感和風格等。2023 年,通過引入擴散模型,NaturalSpeech 2 實現了零樣本的語音合成,标志着技術的進一步突破。

推出 NaturalSpeech 3 系統。

NaturalSpeech 3 的 "Natural" 的一大核心體現就是在 LibriSpeech 數據集上實現了零樣本語音合成達到人類水平。

NaturalSpeech 3 在 LibriSpeech 數據集上實現了零樣本語音合成對人類錄音的 -0.08 CMOS(此前的 SOTA 結果為 -0.18)以及超過人類錄音的 4.01 SMOS (人類錄音結果為 3.85,而此前的 SOTA 為 3.71),而在 WER 上,NaturalSpeech 3 實現了比人類錄音結果(1.94 WER)更低的 1.81 WER。

實驗結果表明,NaturalSpeech 3 的零樣本語音生成結果在 LibriSpeech 數據集上和人類錄音水平已經沒有統計學上的顯著差異。

NaturalSpeech 3 的自然不僅體現在能夠完美的克隆音色上,還體現在能夠自然的模仿提示音頻的韻律、情感等,讓 AI 生成的聲音具有人類的情緒。

NaturalSpeech 3 的技術實現允許對生成的語音進行細致的屬性控制,這種方法提供了對語音合成過程中各個維度的精準調節能力。

通過引入特定屬性的提示,比如采用語速較快的聲音樣本作為時長(duration)控制的參考,NaturalSpeech 3 能夠在保持其他聲音屬性不變的情況下,精确調整生成語音的語速。

這意味着,用户可以通過指定具有特定特征的樣本來引導語音生成過程,進而實現更加個性化和多樣化的語音輸出。例如下面這個例子:

NaturalSpeech 3 的成功秘訣來自于基于屬性分解的Codec+Diffusion 建模範式以及 Data/Model Scaling。

傳統 TTS 系統因訓練數據集有限,難以支持高質量的零樣本語音合成。而最近的研究通過擴大語料庫,雖有所進步,但在聲音質量、相似性和韻律方面仍未達到理想水平。

NaturalSpeech 3 提出創新的屬性分解擴散模型和屬性分解神經語音編碼器 FACodec,通過将語音分解成不同屬性的子空間并根據不同的提示(prompt)分别生成,有效地降低了語音建模難度,從而大大提高了語音合成的質量和自然度。

與此同時,NaturalSpeech 3 通過将訓練數據擴展到 20 萬小時(這是迄今為止公開的研究工作中使用的最大規模數據)以及将模型大小擴展到 1B(2B 甚至更大的模型正在訓練中),進一步提升語音合成的質量和自然度。

NaturalSpeech 3 采用的屬性分解神經語音編解碼器(FACodec)是一項創新技術。

FACodec 的核心在于将復雜的語音波形轉換為多個解耦子空間,這些子空間分别代表語音的不同屬性,如内容、韻律、音色和聲學細節。這樣的設計使得 FACodec 能夠更精準地控制和重構語音的各個方面,從而生成更自然、更高質量的語音輸出。

FACodec 通過以下幾個關鍵組件實現其功能:

語音編碼器:将原始的語音數據轉化到表征空間,為後續的屬性分解做準備。

音色提取器:專門負責提取語音的音色屬性,即説話人的獨特聲音特征。

分解向量量化器:分别針對内容、韻律和聲學細節,将這些屬性轉換成量化的、離散的表示形式。這一步是實現屬性間解耦的關鍵。

語音解碼器:根據從分解向量量化器得到的各屬性表示,重構出高質量的語音波形。

此外,FACodec 還結合了多種訓練技術,以優化這些組件的性能和相互作用,确保生成的語音既自然又符合目标屬性。

這種屬性分解和重構的方法不僅簡化了 TTS 對語音表示的建模過程,而且大大增強了語音合成的可控性和靈活性。用户可以通過調整不同的語音屬性來生成滿足特定需求的語音,如調整音色以模仿特定的説話人,或修改韻律以改變語音的情感表達。

目前語音開源項目 Amphion 已經支持 NaturalSpeech 3 的核心組件 FACodec,并且已發布預訓練模型。

NaturalSpeech 3 的另一個創新之處在于其對屬性分解擴散模型的采用,這種方法為語音合成帶來了新的維度。

通過使用統一的擴散模型并合集多個擴散階段,分别針對音素持續時間、韻律、内容和聲學細節進行建模,NaturalSpeech 3 能夠更細致且有效地控制語音生成的各個方面。

與傳統的語音合成方法相比,這種模塊化的擴散模型架構提供了更高的靈活性和精确度,使得生成的語音既自然又富有表現力。

在這種架構中,音色作為一種重要的語音屬性,其特征可以直接從提供給系統的提示(prompt)中提取,而不需要像其他屬性那樣通過獨立的模型來建模。

這種設計簡化了系統的復雜度,同時保證了音色的一致性和自然性。每個擴散模型只需要接受與其對應的語音屬性相關的提示,從而實現了對特定語音屬性的精準控制和可控性生成。

SOTA 的語音合成效果:經過大量的實驗驗證,NaturalSpeech 3 在語音質量、相似性、韻律和可懂度方面均超越了現有最先進的 TTS 系統。特别是,在 LibriSpeech 測試集上,NaturalSpeech 3 已經達到了人類錄音水平。

Data/Model Scaling:值得一提的是,NaturalSpeech 3 還将模型拓展到 1B 大小、數據量拓展到 20 萬小時左右,在提升合成語音質量,相似度,可理解性方等面的令人期待的結果,展示了較強的 Scaling 能力。

該研究團隊正在招聘以下方向的研究員和研究實習生:

1)音頻(語音 / 音樂 / 音效)理解和生成;

2)視頻(虛拟人 / 通用視頻)理解和生成;

3)大模型。

研究員工作地點:西雅圖;研究實習生工作地點:北京。

如有意向請聯系:譚旭(Xu Tan,[email protected])。

傳送門:

[ 1 ] NaturalSpeech 3 論文鏈接 :   https://arxiv.org/abs/2403.03100

[ 2 ] NaturalSpeech 3 Demo 演示 :   https://speechresearch.github.io/naturalspeech3

[ 3 ] FACodec 預訓練模型 :   https://huggingface.co/spaces/amphion/naturalspeech3_facodec

[ 4 ] FACodec 代碼 :   https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們