AI说书媲美真人！豆包语音大模型更新长上下文理解

今天小编分享的科学经验：AI说书媲美真人！豆包语音大模型更新长上下文理解，欢迎阅读。

下面的两个有声书演播片段，你能分辨是真人还是 AI 合成的吗？

实际上这两个小说片段都是 AI 合成的，方案来自于豆包语音模型团队。为了逼近一流真人主播的演播效果，豆包语音模型基于原有 Seed-TTS 框架进一步加入上下文理解，最终实现了高表现力、高自然度、高语义理解的小说演播效果。

豆包语音模型无需额外标签，端到端合成声音

市面上很多的语音模型已经能保证足够自然的合成表现，但在音质、韵律、情感，以及多角色演绎上还有探索空间。特别是在小说演播场景下，想要媲美一流主播细腻的演播效果，要做好旁白和角色的区分演绎、角色情感的精确表达、不同角色的区分度等。

传统的小说 TTS 生成方式，需要提前给对话旁白、情感、角色打标签，而豆包语音模型则可以做到端到端合成，无需额外标签标注。

△传统语音模型和豆包语音模型合成链路的区别改进 Seed-TTS 技术，合成语音效果媲美真人

原始Seed-TTS（技术报告：https://arxiv.org/pdf/2406.02430）是一种自回归文本到语音模型，主要分为 4 个主要模块：Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder。

其中 Speech Tokenizer 解析了参考音频信息，决定了合成音频的音色和全局风格；Autoregressive Transformer 接收传入的目标文本和 Speech Tokenizer 的输出，进而生成出包含语义信息的 Semantic Token；Diffusion Model 会基于 Semantic Token 建模出包含语音信息的 Acoustic Token；Acoustic Vocoder 负责将 Acoustic Token 重建还原出最终的音频。