今天小编分享的互联网经验:100种语言直接翻译!Meta推出SeamlessM4T新模型,核心数据集还开源,欢迎阅读。
作者 | 虞景霖
编辑 | 邓咏仪 尚恩
《创世纪》中有这样一个故事,传说在千百年前,地球上所有的人都使用一种语言,有一天他们决定建造一座高塔直通天际,远离洪水的侵扰。
这座高塔叫做巴别塔。
很不幸,这件事被神知道了,他们害怕人类因为巴别塔的成功建造而感到骄傲和傲慢,因此决定对人类进行干扰。
于是神打乱了人类的语言,导致人们无法理解对方在说什么。不出神的意料,由于语言不通,人类产生了混乱和分歧,不得不放弃建造巴别塔的计划,四散到了世界各地。
来源:pixabay
而如今,在 AI 的帮助下,使用不同语言的人可以直接进行交流,重建巴比塔成为可能!
来源:公开网络
这就是 Meta 发布的 AI 大模型:SeamlessM4T。一款能够转录和翻译近 100 种语言的一体化翻译器,目前已在官网免费开放使用。
来源:Meta AI 推特
官网体验链接:https://seamless.metademolab.com/
消息一出,就引起了网友的广泛关注,甚至有网友把 SeamlessM4T 戏称为是 " 万宝路 " 创造癌症治疗法。
来源:Jason Ferrell 推特
还有网友表示距离《星际迷航》中的万能翻译器又近了一步。
来源:kache ( yacine ) ( e/boy ) 推特
嗯… .. 怎么不算呢?
但也不是一致好评,有网友就表示 SeamlessM4T 的表现差强人意,直言:" 几乎每次都完全错误 "。
来源:minos 推特
100 种语言直接翻译,文本语音一条龙
不同于仅支持文本转文本的传统翻译器,SeamlessM4T 功能众多,具体来说:
能够对 96 种语言进行语音识别
支持近 100 种输入和输出语言的语音到文本翻译
支持近 100 种输入语言和 36 种输出语言的语音到语音翻译
支持近 100 种语言的文本到文本翻译
支持近 100 种输入语言和 35 种输出语言的文本到语音翻译
来源:Meta AI 官网
据官方说明,SeamlessM4T 可以分为两个部分,编码器和解码器。
编码器能够识别近 100 种语言的语音输入,再由解码器将其转化成近 100 种文本语言或 35 种(包含英语)语音语言。经过训练的编码器,能够自动识别输入语音中和人类语音对应的音频信号,并将其分解为一系列语音段,最后通过匹配器将这些语音段对应到单词中。
而文本的识别,则基于 NLLB 模型的文本编码器,经过训练后能理解 100 种语言的文本内容。基于识别的内容,解码器就可以进行语音和文本的输出。
编码器和解码器实现机制
简单来说,就是把文本或者语音扔给编码器,让它在内部进行一系列解析、分割和转换等操作,再把这些处理好的信息丢给解码器,解码器把他们合成对应语言的文本或者语音。
说话间,已经有网友等不及上手玩了起来。
左边这位网友用福建话自我介绍的一瞬间,AI 就立即将语句转换为英文,后面即使是 " 一整段福建话 ",SeamlessM4T 也应对自如。
来源:Meta
对此就有不少网友开始腦补,有了 SeamlessM4T,以后上网组队玩游戏,管你讲啥语言,AI 统统都拿下!
来源:Eder Teixeira Eder Teixeira 推特
目前,Meta 并非唯一一个投入资源用于开发 AI 转录和翻译的公司。
去年 9 月,OpenAI 就开源了 Whisper 自动语音识别系统,还强调 Whisper 的语音识别能力已经达到了人类水准。
而更早之前,互联网鼻祖 Netscape 旗下的 Mozilla 基金会,也在 2017 年推出了公共数据库 Common Voice,这是用于训练自动语音识别算法的最大的多语言语音库之一。
在训练数据层面,SeamlessM4T 的训练数据似乎没有 Whisper 那么庞大。OpenAI 声称 Whisper 使用了 68 万个小时的训练数据,而 SeamlessM4T 的训练数据约为 44 万个小时。
那么,Meta 的 SeamlessM4T 强在哪?
首先,SeamlessM4T 实现了语音和语音之间的直接转换,免除了中间的文本转录过程,能够更好地保留语音特征。
而其他语音转录軟體,如 Whisper,由于接受了大量的噪音数据的训练,转录的文本中包含实际没说的单词的可能性更高,当语音中包含多种语言的时候,Whisper 的转录效果似乎并不那么令人满意。
SeamlessM4T 则在这个方面进行了改进,大大增强了模型处理背景杂音和多语言语音的能力。
免费开源,包括核心数据集
目前,Meta 将以研究许可证的形式向公众免费提供该模型(仅限非商业用途),以便研究人员和开发人员在此基础上进一步研究。
更重要的是,Meta 还将发布 SeamlessM4T 的关键训练数据集之一SeamlessAlign。
这个数据集通过语音识别和文本挖掘技术,从公开渠道抓取并对齐了大量语音和文本数据,覆盖了 37 种语言,包含了超过 44 万小时的语音和文本数据,是迄今为止用于多模式翻译的最大的公开数据集。
另外,在测试中团队发现,SeamlessM4T 的鲁棒性也灰常不错!
与此同时,Meta 还专门做了研究表示,相较于当前最先进的模型,SeamlessM4T 在语音转文本任务中处理背景音和变化的语音的能力更强(平均水平分别提高了 37% 和 48%)。
SeamlessM4T 鲁棒性测试结果
但和其他众多的 AI 模型一样,SeamlessM4T 也并不是完美的存在,仍然存在多种形式的偏见和误差。
当输入中性词语时,输出的结果偏 " 男性 "。例如,在不明确性别的时候,SeamlessM4T 大约有 10% 的概率倾向将性别表示为男性。Meta 推测,这可能是由于训练数据的 " 男性 " 倾向更加明显。
除了性别输出偏好,SeamlessM4T 还有一些其他的问题。
例如在孟加拉语和吉尔吉斯语等一些语言中,SeamlessM4T 对社会经济地位和文化进行了恶意翻译,这类情况在涉及性取向和宗教的翻译中更加严重。而这一点也得到了网友的验证,并表示对此现象的出现十分失望。
来源:Cuenta Libra 推特
但是,Meta 声称,SeamlessM4T 的公开版本中包含了恶意评论的过滤器,能够阻止恶意言论的输入和输出。
但实际情况确是,在模型的开源版本中,默认情况下并没有这个过滤器。也正是由于这个原因,Meta 不建议将 SeamlessM4T 用于过长文本和严肃内容转录翻译。
SeamlessM4T 可谓 Meta 多年来在翻译器开发领網域的集大成者。去年,Meta 发布了一个能够支持 200 种语言的文本转文本翻译模型 NLLB(No Language Left Behind),还推出了第一个针对闽南语的语音转语音翻译器。
今年 5 月,Meta 推出了一个多模语言翻译器,能够识别并合成 1100 多种语言的语音。SeamlessM4T 综合了上述所有项目的研究成果。
未来,Meta 希望基于 SeamlessM4T 在翻译器开发领網域进一步探索,最终创造一个没有语言障碍的世界。