语音合成也遵循Scaling Law，太乙真人“原声放送”讲解论文 - 大酷樂

今天小编分享的科学经验：语音合成也遵循Scaling Law，太乙真人“原声放送”讲解论文，欢迎阅读。

活久见，太乙真人给讲论文了噻！

咳咳，诸位道友且听我一番唠叨。

老道我闭关数日，所得一篇妙诀，便是此Llasa之法。此术上个月一出，海外仙长们无不瞠目结舌，直呼 "HOLY SHIT"！

热度最高时，曾在 huggingface 上的 " 丹药热度榜 " 上排第六。

咳咳，书回正传。

如上引发围观的成果由香港科技大学等联合推出，它验证语音合成模型，也可以遵循 Scaling Law，即扩展计算资源、语音合成效果可以更好。

它核心提出了一个语音合成的简单框架 Llasa，该框架采用单层 VQ 编解码器和单个 Transformer 架构，和标准 LLM 保持一致。

研究团队提供了 TTS 模型（1B、3B、8B）、编解码器的 checkpoint 以及训练代码。

一气呵成 TTS 系统

近年来，基于 Transformer 的大型语言模型（LLM）在自然语言处理领網域取得了显著进展，尤其是通过扩展模型规模和训练数据来提升性能。

然而，当前的 TTS 系统通常需要多阶段模型（例如在 LLM 后使用扩散模型），这使得在训练或推理阶段扩展计算资源变得复杂。

本研究提出了一种单阶段 TTS 框架Llasa，旨在简化这一过程，同时探索训练时间和推理时间扩展对语音合成的影响。

它基于 Llama 模型，采用单 Transformer 架构，结合了一个设计良好的语音分词器（tokenizer），能够将语音波形编码为离散的语音标记，并解码回高质量音频。

该框架的核心在于将语音和文本标记联合建模，通过预测下一个语音标记来生成语音。

关键组件：

语音分词器（Xcodec2）：将语音波形编码为离散标记，同时保留语音的语义和声学信息。

Transformer 模型：基于 Llama 初始化，学习文本和语音标记的联合分布。

验证 Scaling Law 训练时间扩展（Scaling Train-time Compute）

研究者通过扩展模型规模和训练数据规模来研究其对语音合成性能的影响。

实验表明，增加模型参数（从 1B 到 8B）和训练数据量（从 80k 小时到 250k 小时）可以显著提高语音的自然度、韵律准确性和情感表达能力。

关键发现：

文本理解能力：更大的模型和更多的数据能够更好地理解复杂文本（如诗歌、情感文本）。数据越多，连生僻字，复合词也能辨其真意。

零样本学习能力：扩展训练资源能够显著提高模型对未见说话人的语音克隆能力。

推理时间扩展（Scaling Inference-time Compute）

研究还探索了在推理阶段通过增加计算资源（例如使用语音理解模型作为验证器）来优化生成语音的质量。实验表明，推理时间扩展可以显著提高语音的情感表达、音色一致性和内容准确性。

关键方法：

过程奖励模型（PRM）：通过逐步优化生成过程来提高语音质量。

输出奖励模型（ORM）：通过评估最终生成的语音来选择最优输出。

实验结果

语音分词器性能：提出的 Xcodec2 在多个指标上优于现有分词器，特别是在低比特率下的语音重建质量。

TTS 性能：Llasa 在 LibriSpeech、Seed-TTS-Eval 和 ESD 数据集上达到了最先进的性能，尤其是在情感相似性、音色相似性和零样本学习能力方面。

推理时间扩展效果：通过 PRM 和 ORM 方法，推理时间扩展显著提高了语音合成的质量，尤其是在复杂任务中。

" 开源渡世 "

咳咳，太乙真人重新上线：

老道已将丹方（训练代码）、丹药（模型权重）公之于世，广邀三界修士共参：

秘方参照：Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

论文链接：https://arxiv.org/abs/2502.04128

Llasa 训练代码 https://github.com/zhenye234/LLaSA_training

Codec 训练 https://github.com/zhenye234/X-Codec-2.0

Llasa test-time-scaling 代码 https://github.com/zhenye234/LLaSA_inference

模型权重 : https://huggingface.co/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44

诸位道友若有心得，不妨留言论道，老道自当一一解惑！

— 完 —

学术投稿请于工作日发邮件到：

[email protected]

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文 / 项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

一键关注点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

熱門排行

那些去泰国开泰拳馆的中国人郜萌運 | 2025-02-28
嘉强智能完成数亿元人民币B轮融资，工业母机袁曼雁 | 2025-02-28
杜淳老婆医美翻车，王灿打肉毒素过敏进医院，后甄正浩 | 2025-02-28
央视曝光虚假“校园免费网络”，实为黑客架设郜萌運 | 2025-02-28
他到底是真红，还是营销咖？佼昌翰 | 2025-02-28
商务部回应美方威胁对华再加征10%关税繁綺文 | 2025-02-28
哪吒究竟是哪的人？地方文旅争着踩一脚 “风甄正浩 | 2025-02-28
美俄谈判刚结束，普京宣布重大消息，俄军从库尔幸聽楓 | 2025-02-28
医美毁女神，娄艺潇额头鼓包、闫妮脸似橡胶、佼昌翰 | 2025-02-28
你不住的房子，可以少交物业费吗袁曼雁 | 2025-02-28
高露现身上海虹桥机场黑色外套点缀亮色爱惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表賁芳蕤 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
曹操墓，里面都有啥？衛青柏 | 2023-05-02
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露賁芳蕤 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花謝飛揚 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖集玲琳 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游衛青柏 | 2023-05-04
信用风险释放趋缓，结构性风险需重点关注 — 袁曼雁 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修集玲琳 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
解除资格！停止一切合作佼昌翰 | 2023-05-02
前董事长被免，天山生物全面进入“中植系”时惠惠君 | 2023-05-02
3699起联想小新mini主机上架 13代酷睿标压習又夏 | 2023-05-05
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线袁曼雁 | 2023-05-07
事关农村土地承包和农民权益，《农村土地承包郟君昊 | 2023-05-02
五一档没一个能打的集玲琳 | 2023-05-05
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的佼昌翰 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，袁曼雁 | 2023-05-03
一个《长月烬明》倒了，《狐妖》《长相思》《惠惠君 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊嬴覓晴 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02