語音合成也遵循Scaling Law，太乙真人“原聲放送”講解論文 - 大酷樂

今天小編分享的科學經驗：語音合成也遵循Scaling Law，太乙真人“原聲放送”講解論文，歡迎閲讀。

活久見，太乙真人給講論文了噻！

咳咳，諸位道友且聽我一番唠叨。

老道我閉關數日，所得一篇妙訣，便是此Llasa之法。此術上個月一出，海外仙長們無不瞠目結舌，直呼 "HOLY SHIT"！

熱度最高時，曾在 huggingface 上的 " 丹藥熱度榜 " 上排第六。

咳咳，書回正傳。

如上引發圍觀的成果由香港科技大學等聯合推出，它驗證語音合成模型，也可以遵循 Scaling Law，即擴展計算資源、語音合成效果可以更好。

它核心提出了一個語音合成的簡單框架 Llasa，該框架采用單層 VQ 編解碼器和單個 Transformer 架構，和标準 LLM 保持一致。

研究團隊提供了 TTS 模型（1B、3B、8B）、編解碼器的 checkpoint 以及訓練代碼。

一氣呵成 TTS 系統

近年來，基于 Transformer 的大型語言模型（LLM）在自然語言處理領網域取得了顯著進展，尤其是通過擴展模型規模和訓練數據來提升性能。

然而，當前的 TTS 系統通常需要多階段模型（例如在 LLM 後使用擴散模型），這使得在訓練或推理階段擴展計算資源變得復雜。

本研究提出了一種單階段 TTS 框架Llasa，旨在簡化這一過程，同時探索訓練時間和推理時間擴展對語音合成的影響。

它基于 Llama 模型，采用單 Transformer 架構，結合了一個設計良好的語音分詞器（tokenizer），能夠将語音波形編碼為離散的語音标記，并解碼回高質量音頻。

該框架的核心在于将語音和文本标記聯合建模，通過預測下一個語音标記來生成語音。

關鍵組件：

語音分詞器（Xcodec2）：将語音波形編碼為離散标記，同時保留語音的語義和聲學信息。

Transformer 模型：基于 Llama 初始化，學習文本和語音标記的聯合分布。

驗證 Scaling Law 訓練時間擴展（Scaling Train-time Compute）

研究者通過擴展模型規模和訓練數據規模來研究其對語音合成性能的影響。

實驗表明，增加模型參數（從 1B 到 8B）和訓練數據量（從 80k 小時到 250k 小時）可以顯著提高語音的自然度、韻律準确性和情感表達能力。

關鍵發現：

文本理解能力：更大的模型和更多的數據能夠更好地理解復雜文本（如詩歌、情感文本）。數據越多，連生僻字，復合詞也能辨其真意。

零樣本學習能力：擴展訓練資源能夠顯著提高模型對未見説話人的語音克隆能力。

推理時間擴展（Scaling Inference-time Compute）

研究還探索了在推理階段通過增加計算資源（例如使用語音理解模型作為驗證器）來優化生成語音的質量。實驗表明，推理時間擴展可以顯著提高語音的情感表達、音色一致性和内容準确性。

關鍵方法：

過程獎勵模型（PRM）：通過逐步優化生成過程來提高語音質量。

輸出獎勵模型（ORM）：通過評估最終生成的語音來選擇最優輸出。

實驗結果

語音分詞器性能：提出的 Xcodec2 在多個指标上優于現有分詞器，特别是在低比特率下的語音重建質量。

TTS 性能：Llasa 在 LibriSpeech、Seed-TTS-Eval 和 ESD 數據集上達到了最先進的性能，尤其是在情感相似性、音色相似性和零樣本學習能力方面。

推理時間擴展效果：通過 PRM 和 ORM 方法，推理時間擴展顯著提高了語音合成的質量，尤其是在復雜任務中。

" 開源渡世 "

咳咳，太乙真人重新上線：

老道已将丹方（訓練代碼）、丹藥（模型權重）公之于世，廣邀三界修士共參：

秘方參照：Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

論文鏈接：https://arxiv.org/abs/2502.04128

Llasa 訓練代碼 https://github.com/zhenye234/LLaSA_training

Codec 訓練 https://github.com/zhenye234/X-Codec-2.0

Llasa test-time-scaling 代碼 https://github.com/zhenye234/LLaSA_inference

模型權重 : https://huggingface.co/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44

諸位道友若有心得，不妨留言論道，老道自當一一解惑！

— 完 —

學術投稿請于工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

一鍵關注點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

熱門排行

那些去泰國開泰拳館的中國人郜萌運 | 2025-02-28
嘉強智能完成數億元人民币B輪融資，工業母機袁曼雁 | 2025-02-28
杜淳老婆醫美翻車，王燦打肉毒素過敏進醫院，後甄正浩 | 2025-02-28
央視曝光虛假“校園免費網絡”，實為黑客架設郜萌運 | 2025-02-28
他到底是真紅，還是營銷咖？佼昌翰 | 2025-02-28
商務部回應美方威脅對華再加征10%關税繁綺文 | 2025-02-28
哪吒究竟是哪的人？地方文旅争着踩一腳 “風甄正浩 | 2025-02-28
美俄談判剛結束，普京宣布重大消息，俄軍從庫爾幸聽楓 | 2025-02-28
醫美毀女神，婁藝潇額頭鼓包、闫妮臉似橡膠、佼昌翰 | 2025-02-28
你不住的房子，可以少交物業費嗎袁曼雁 | 2025-02-28
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
解除資格！停止一切合作佼昌翰 | 2023-05-02
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
五一檔沒一個能打的集玲琳 | 2023-05-05
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02