今天小編分享的科學經驗:語音合成也遵循Scaling Law,太乙真人“原聲放送”講解論文,歡迎閲讀。
活久見,太乙真人給講論文了噻!
咳咳,諸位道友且聽我一番唠叨。
老道我閉關數日,所得一篇妙訣,便是此Llasa之法。此術上個月一出,海外仙長們無不瞠目結舌,直呼 "HOLY SHIT"!
熱度最高時,曾在 huggingface 上的 " 丹藥熱度榜 " 上排第六。
咳咳,書回正傳。
如上引發圍觀的成果由香港科技大學等聯合推出,它驗證語音合成模型,也可以遵循 Scaling Law,即擴展計算資源、語音合成效果可以更好。
它核心提出了一個語音合成的簡單框架 Llasa,該框架采用單層 VQ 編解碼器和單個 Transformer 架構,和标準 LLM 保持一致。
研究團隊提供了 TTS 模型(1B、3B、8B)、編解碼器的 checkpoint 以及訓練代碼。
一氣呵成 TTS 系統
近年來,基于 Transformer 的大型語言模型(LLM)在自然語言處理領網域取得了顯著進展,尤其是通過擴展模型規模和訓練數據來提升性能。
然而,當前的 TTS 系統通常需要多階段模型(例如在 LLM 後使用擴散模型),這使得在訓練或推理階段擴展計算資源變得復雜。
本研究提出了一種單階段 TTS 框架Llasa,旨在簡化這一過程,同時探索訓練時間和推理時間擴展對語音合成的影響。
它基于 Llama 模型,采用單 Transformer 架構,結合了一個設計良好的語音分詞器(tokenizer),能夠将語音波形編碼為離散的語音标記,并解碼回高質量音頻。
該框架的核心在于将語音和文本标記聯合建模,通過預測下一個語音标記來生成語音。
關鍵組件:
語音分詞器(Xcodec2):将語音波形編碼為離散标記,同時保留語音的語義和聲學信息。
Transformer 模型:基于 Llama 初始化,學習文本和語音标記的聯合分布。
驗證 Scaling Law 訓練時間擴展(Scaling Train-time Compute)
研究者通過擴展模型規模和訓練數據規模來研究其對語音合成性能的影響。
實驗表明,增加模型參數(從 1B 到 8B)和訓練數據量(從 80k 小時到 250k 小時)可以顯著提高語音的自然度、韻律準确性和情感表達能力。
關鍵發現:
文本理解能力:更大的模型和更多的數據能夠更好地理解復雜文本(如詩歌、情感文本)。數據越多,連生僻字,復合詞也能辨其真意。
零樣本學習能力:擴展訓練資源能夠顯著提高模型對未見説話人的語音克隆能力。
推理時間擴展(Scaling Inference-time Compute)
研究還探索了在推理階段通過增加計算資源(例如使用語音理解模型作為驗證器)來優化生成語音的質量。實驗表明,推理時間擴展可以顯著提高語音的情感表達、音色一致性和内容準确性。
關鍵方法:
過程獎勵模型(PRM):通過逐步優化生成過程來提高語音質量。
輸出獎勵模型(ORM):通過評估最終生成的語音來選擇最優輸出。
實驗結果
語音分詞器性能:提出的 Xcodec2 在多個指标上優于現有分詞器,特别是在低比特率下的語音重建質量。
TTS 性能:Llasa 在 LibriSpeech、Seed-TTS-Eval 和 ESD 數據集上達到了最先進的性能,尤其是在情感相似性、音色相似性和零樣本學習能力方面。
推理時間擴展效果:通過 PRM 和 ORM 方法,推理時間擴展顯著提高了語音合成的質量,尤其是在復雜任務中。
" 開源渡世 "
咳咳,太乙真人重新上線:
老道已将丹方(訓練代碼)、丹藥(模型權重)公之于世,廣邀三界修士共參:
秘方參照:Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis
論文鏈接:https://arxiv.org/abs/2502.04128
Llasa 訓練代碼 https://github.com/zhenye234/LLaSA_training
Codec 訓練 https://github.com/zhenye234/X-Codec-2.0
Llasa test-time-scaling 代碼 https://github.com/zhenye234/LLaSA_inference
模型權重 : https://huggingface.co/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44
諸位道友若有心得,不妨留言論道,老道自當一一解惑!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
一鍵關注 點亮星标
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!