语音大模型「MaskGCT」正式开源，为短剧、游戏、数字人等产品提供服务

今天小编分享的互联网经验：语音大模型「MaskGCT」正式开源，为短剧、游戏、数字人等产品提供服务，欢迎阅读。

文 | 刘士武（36 氪游戏）

10 月 24 日，趣丸科技宣布与香港中文大学（深圳）联合研发的语音大模型「MaskGCT」正式在 Amphion 系统中开源，面向全球用户开放使用。区别于传统 TTS 模型，MaskGCT 采用掩码生成模型与语音表征解耦编码技术，在声音克隆、跨语种合成、语音控制等任务环节中能够快速落地。

测试结果（来源：MaskGCT）

据了解，相较于现有的 TTS 大模型，MaskGCT 在语音的相似度、质量和稳定性上进一步突破，在三个 TTS 基准数据集上都达到了 SOTA 效果。其显著特点如下：

秒级超逼真的声音克隆：提供 3 秒音频样本即可复刻人类、动漫、" 耳边细语 " 等任意音色，且能完整复刻语调、风格和情感。

更精细可控的语音生成：可灵活调整生成语音的长度、语速和情绪，支持通过编辑文本编辑语音，并保持韵律、音色等方面的高度一致。

高质量多语种语音数据集：训练于香港中文大学（深圳）和趣丸科技等机构联合推出的 10 万小时数据集 Emilia，是全球最大且最为多样的高质量多语种语音数据集之一，实现中英日韩法德 6 种语言的跨语种合成。

MaskGCT 的研发工作由港中大（深圳）、趣丸科技人工智能联合实验室成员完成。作为一个大规模的零样本 TTS 模型，MaskGCT 采用非自回归掩码生成 Transformer，无需文本与语音的对齐监督和音素级持续时间预测，其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。

MaskGCT 大模型翻译《黑神话：悟空》卡通片段（视频来源：趣丸千音）

根据官方实验表明，MaskGCT 在语音质量、相似度和可理解性方面优于当前绝大部分的 TTS 模型，并且在模型规模和训练数据量增加时表现更佳，同时能够控制生成语音的总时长。

MaskGCT 已在香港中文大学（深圳）与上海人工智能实验室联合开发的开源系统 Amphion 发布

值得一提的是，MaskGCT 是一个两阶段模型。在第一阶段，模型使用文本预测从语音自监督学习（SSL）模型中提取的语义标记；在第二阶段，模型基于这些语义标记预测声学标记（遵循掩码预测学习范式）。

在训练过程中，MaskGCT 学习根据给定的条件和提示预测掩码的语义或声学标记。在推理过程中，模型以并行方式生成指定长度的标记。通过对 10 万小时的自然语音进行实验，结果表明 MaskGCT 在质量、相似度和可理解性方面优于其他现有的零样本 TTS 系统。

目前，MaskGCT 在短剧出海、数字人、智能助手、有声读物、辅助教育等领網域拥有丰富的应用场景。为了加快落地应用，在安全合规的前提下，趣丸科技开发了多语种速译智能视听平台 " 趣丸千音 "，可实现一键上传视频即可快速翻译成多语种版本，并包含字幕修复与翻译、语音翻译、唇音同步等功能，大幅降低过往昂贵的人工翻译成本和冗长的制作周期，成为影视、游戏、短剧等内容出海的新选择。

视频来源：趣丸千音

《2024 年短剧出海白皮书》显示，2023 年海外市场规模高达 650 亿美元，约为国内市场的 12 倍，短剧出海正成为蓝海新赛道。基于 MaskGCT 的趣丸千音，有机会帮助国产短剧以更低成本、更快捷的方式 " 走出去 "，提升中国文化内容的出海效率。