大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

仅听3秒,AI零样本克隆人声达到人类水平,情绪语调随意改

2024-04-14 简体 HK SG TW

今天小编分享的科学经验:仅听3秒,AI零样本克隆人声达到人类水平,情绪语调随意改,欢迎阅读。

零样本、仅听 3 秒提示音频,即可 1:1 复刻人声。

还能给生成人声带入情绪,比如" 悲伤 "的情绪:

"恶心" 的情绪:

这就是微软与中国科技大学、香港中文大学(深圳)和浙江大学等机构合作,推出的NaturalSpeech 3系统。

该系统采用了创新的属性分解扩散模型和属性分解语音神经编解码器 FACodec,从 " 表示 " 和 " 建模 " 两个维度对语音数据进行深入研究。通过数据 / 模型的规模化方法,在多说话人数据集 LibriSpeech 上首次实现了零样本的人类水平语音合成。

文本到语音合成(TTS)技术作为生成式人工智能的关键分支,在大型语言模型(LLM)的推动下近年来迎来了突飞猛进的发展。特别是随着语音合成技术的进步,它为大模型带来了声音互動的新维度,受到了业界的高度重视。在这一领網域内,微软一直是技术研究与产品开发的积极参与者,旨在创造出高度自然的人类语音。为此,微软启动了 NaturalSpeech 研究项目 ( https://speechresearch.github.io/ ) 。

该项目为实现其目标,制定了分阶段的实施路线图:

首先,项目聚焦于在单个说话人语音合成上实现与真人相媲美的音质。2022 年,NaturalSpeech 1 版本在 LJSpeech 语音合成数据集上的表现,已达到人类录音的音质水平。

随后,项目目标更新,旨在高效生成具有多样化特征的人类语音,如不同说话人、韵律、情感和风格等。2023 年,通过引入扩散模型,NaturalSpeech 2 实现了零样本的语音合成,标志着技术的进一步突破。

推出 NaturalSpeech 3 系统。

NaturalSpeech 3 的 "Natural" 的一大核心体现就是在 LibriSpeech 数据集上实现了零样本语音合成达到人类水平。

NaturalSpeech 3 在 LibriSpeech 数据集上实现了零样本语音合成对人类录音的 -0.08 CMOS(此前的 SOTA 结果为 -0.18)以及超过人类录音的 4.01 SMOS (人类录音结果为 3.85,而此前的 SOTA 为 3.71),而在 WER 上,NaturalSpeech 3 实现了比人类录音结果(1.94 WER)更低的 1.81 WER。

实验结果表明,NaturalSpeech 3 的零样本语音生成结果在 LibriSpeech 数据集上和人类录音水平已经没有统计学上的显著差异。

NaturalSpeech 3 的自然不仅体现在能够完美的克隆音色上,还体现在能够自然的模仿提示音频的韵律、情感等,让 AI 生成的声音具有人类的情绪。

NaturalSpeech 3 的技术实现允许对生成的语音进行细致的属性控制,这种方法提供了对语音合成过程中各个维度的精准调节能力。

通过引入特定属性的提示,比如采用语速较快的声音样本作为时长(duration)控制的参考,NaturalSpeech 3 能够在保持其他声音属性不变的情况下,精确调整生成语音的语速。

这意味着,用户可以通过指定具有特定特征的样本来引导语音生成过程,进而实现更加个性化和多样化的语音输出。例如下面这个例子:

NaturalSpeech 3 的成功秘诀来自于基于属性分解的Codec+Diffusion 建模范式以及 Data/Model Scaling。

传统 TTS 系统因训练数据集有限,难以支持高质量的零样本语音合成。而最近的研究通过扩大语料库,虽有所进步,但在声音质量、相似性和韵律方面仍未达到理想水平。

NaturalSpeech 3 提出创新的属性分解扩散模型和属性分解神经语音编码器 FACodec,通过将语音分解成不同属性的子空间并根据不同的提示(prompt)分别生成,有效地降低了语音建模难度,从而大大提高了语音合成的质量和自然度。

与此同时,NaturalSpeech 3 通过将训练数据扩展到 20 万小时(这是迄今为止公开的研究工作中使用的最大规模数据)以及将模型大小扩展到 1B(2B 甚至更大的模型正在训练中),进一步提升语音合成的质量和自然度。

NaturalSpeech 3 采用的属性分解神经语音编解码器(FACodec)是一项创新技术。

FACodec 的核心在于将复杂的语音波形转换为多个解耦子空间,这些子空间分别代表语音的不同属性,如内容、韵律、音色和声学细节。这样的设计使得 FACodec 能够更精准地控制和重构语音的各个方面,从而生成更自然、更高质量的语音输出。

FACodec 通过以下几个关键组件实现其功能:

语音编码器:将原始的语音数据转化到表征空间,为后续的属性分解做准备。

音色提取器:专门负责提取语音的音色属性,即说话人的独特声音特征。

分解向量量化器:分别针对内容、韵律和声学细节,将这些属性转换成量化的、离散的表示形式。这一步是实现属性间解耦的关键。

语音解码器:根据从分解向量量化器得到的各属性表示,重构出高质量的语音波形。

此外,FACodec 还结合了多种训练技术,以优化这些组件的性能和相互作用,确保生成的语音既自然又符合目标属性。

这种属性分解和重构的方法不仅简化了 TTS 对语音表示的建模过程,而且大大增强了语音合成的可控性和灵活性。用户可以通过调整不同的语音属性来生成满足特定需求的语音,如调整音色以模仿特定的说话人,或修改韵律以改变语音的情感表达。

目前语音开源项目 Amphion 已经支持 NaturalSpeech 3 的核心组件 FACodec,并且已发布预训练模型。

NaturalSpeech 3 的另一个创新之处在于其对属性分解扩散模型的采用,这种方法为语音合成带来了新的维度。

通过使用统一的扩散模型并合集多个扩散阶段,分别针对音素持续时间、韵律、内容和声学细节进行建模,NaturalSpeech 3 能够更细致且有效地控制语音生成的各个方面。

与传统的语音合成方法相比,这种模块化的扩散模型架构提供了更高的灵活性和精确度,使得生成的语音既自然又富有表现力。

在这种架构中,音色作为一种重要的语音属性,其特征可以直接从提供给系统的提示(prompt)中提取,而不需要像其他属性那样通过独立的模型来建模。

这种设计简化了系统的复杂度,同时保证了音色的一致性和自然性。每个扩散模型只需要接受与其对应的语音属性相关的提示,从而实现了对特定语音属性的精准控制和可控性生成。

SOTA 的语音合成效果:经过大量的实验验证,NaturalSpeech 3 在语音质量、相似性、韵律和可懂度方面均超越了现有最先进的 TTS 系统。特别是,在 LibriSpeech 测试集上,NaturalSpeech 3 已经达到了人类录音水平。

Data/Model Scaling:值得一提的是,NaturalSpeech 3 还将模型拓展到 1B 大小、数据量拓展到 20 万小时左右,在提升合成语音质量,相似度,可理解性方等面的令人期待的结果,展示了较强的 Scaling 能力。

该研究团队正在招聘以下方向的研究员和研究实习生:

1)音频(语音 / 音乐 / 音效)理解和生成;

2)视频(虚拟人 / 通用视频)理解和生成;

3)大模型。

研究员工作地点:西雅图;研究实习生工作地点:北京。

如有意向请联系:谭旭(Xu Tan,[email protected])。

传送门:

[ 1 ] NaturalSpeech 3 论文链接 :   https://arxiv.org/abs/2403.03100

[ 2 ] NaturalSpeech 3 Demo 演示 :   https://speechresearch.github.io/naturalspeech3

[ 3 ] FACodec 预训练模型 :   https://huggingface.co/spaces/amphion/naturalspeech3_facodec

[ 4 ] FACodec 代码 :   https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們