今天小編分享的互聯網經驗:100種語言直接翻譯!Meta推出SeamlessM4T新模型,核心數據集還開源,歡迎閱讀。
作者 | 虞景霖
編輯 | 鄧詠儀 尚恩
《創世紀》中有這樣一個故事,傳說在千百年前,地球上所有的人都使用一種語言,有一天他們決定建造一座高塔直通天際,遠離洪水的侵擾。
這座高塔叫做巴别塔。
很不幸,這件事被神知道了,他們害怕人類因為巴别塔的成功建造而感到驕傲和傲慢,因此決定對人類進行幹擾。
于是神打亂了人類的語言,導致人們無法理解對方在說什麼。不出神的意料,由于語言不通,人類產生了混亂和分歧,不得不放棄建造巴别塔的計劃,四散到了世界各地。
來源:pixabay
而如今,在 AI 的幫助下,使用不同語言的人可以直接進行交流,重建巴比塔成為可能!
來源:公開網絡
這就是 Meta 發布的 AI 大模型:SeamlessM4T。一款能夠轉錄和翻譯近 100 種語言的一體化翻譯器,目前已在官網免費開放使用。
來源:Meta AI 推特
官網體驗鏈接:https://seamless.metademolab.com/
消息一出,就引起了網友的廣泛關注,甚至有網友把 SeamlessM4T 戲稱為是 " 萬寶路 " 創造癌症治療法。
來源:Jason Ferrell 推特
還有網友表示距離《星際迷航》中的萬能翻譯器又近了一步。
來源:kache ( yacine ) ( e/boy ) 推特
嗯… .. 怎麼不算呢?
但也不是一致好評,有網友就表示 SeamlessM4T 的表現差強人意,直言:" 幾乎每次都完全錯誤 "。
來源:minos 推特
100 種語言直接翻譯,文本語音一條龍
不同于僅支持文本轉文本的傳統翻譯器,SeamlessM4T 功能眾多,具體來說:
能夠對 96 種語言進行語音識别
支持近 100 種輸入和輸出語言的語音到文本翻譯
支持近 100 種輸入語言和 36 種輸出語言的語音到語音翻譯
支持近 100 種語言的文本到文本翻譯
支持近 100 種輸入語言和 35 種輸出語言的文本到語音翻譯
來源:Meta AI 官網
據官方說明,SeamlessM4T 可以分為兩個部分,編碼器和解碼器。
編碼器能夠識别近 100 種語言的語音輸入,再由解碼器将其轉化成近 100 種文本語言或 35 種(包含英語)語音語言。經過訓練的編碼器,能夠自動識别輸入語音中和人類語音對應的音頻信号,并将其分解為一系列語音段,最後通過匹配器将這些語音段對應到單詞中。
而文本的識别,則基于 NLLB 模型的文本編碼器,經過訓練後能理解 100 種語言的文本内容。基于識别的内容,解碼器就可以進行語音和文本的輸出。
編碼器和解碼器實現機制
簡單來說,就是把文本或者語音扔給編碼器,讓它在内部進行一系列解析、分割和轉換等操作,再把這些處理好的信息丢給解碼器,解碼器把他們合成對應語言的文本或者語音。
說話間,已經有網友等不及上手玩了起來。
左邊這位網友用福建話自我介紹的一瞬間,AI 就立即将語句轉換為英文,後面即使是 " 一整段福建話 ",SeamlessM4T 也應對自如。
來源:Meta
對此就有不少網友開始腦補,有了 SeamlessM4T,以後上網組隊玩遊戲,管你講啥語言,AI 統統都拿下!
來源:Eder Teixeira Eder Teixeira 推特
目前,Meta 并非唯一一個投入資源用于開發 AI 轉錄和翻譯的公司。
去年 9 月,OpenAI 就開源了 Whisper 自動語音識别系統,還強調 Whisper 的語音識别能力已經達到了人類水準。
而更早之前,互聯網鼻祖 Netscape 旗下的 Mozilla 基金會,也在 2017 年推出了公共數據庫 Common Voice,這是用于訓練自動語音識别算法的最大的多語言語音庫之一。
在訓練數據層面,SeamlessM4T 的訓練數據似乎沒有 Whisper 那麼龐大。OpenAI 聲稱 Whisper 使用了 68 萬個小時的訓練數據,而 SeamlessM4T 的訓練數據約為 44 萬個小時。
那麼,Meta 的 SeamlessM4T 強在哪?
首先,SeamlessM4T 實現了語音和語音之間的直接轉換,免除了中間的文本轉錄過程,能夠更好地保留語音特征。
而其他語音轉錄軟體,如 Whisper,由于接受了大量的噪音數據的訓練,轉錄的文本中包含實際沒說的單詞的可能性更高,當語音中包含多種語言的時候,Whisper 的轉錄效果似乎并不那麼令人滿意。
SeamlessM4T 則在這個方面進行了改進,大大增強了模型處理背景雜音和多語言語音的能力。
免費開源,包括核心數據集
目前,Meta 将以研究許可證的形式向公眾免費提供該模型(僅限非商業用途),以便研究人員和開發人員在此基礎上進一步研究。
更重要的是,Meta 還将發布 SeamlessM4T 的關鍵訓練數據集之一SeamlessAlign。
這個數據集通過語音識别和文本挖掘技術,從公開渠道抓取并對齊了大量語音和文本數據,覆蓋了 37 種語言,包含了超過 44 萬小時的語音和文本數據,是迄今為止用于多模式翻譯的最大的公開數據集。
另外,在測試中團隊發現,SeamlessM4T 的魯棒性也灰常不錯!
與此同時,Meta 還專門做了研究表示,相較于當前最先進的模型,SeamlessM4T 在語音轉文本任務中處理背景音和變化的語音的能力更強(平均水平分别提高了 37% 和 48%)。
SeamlessM4T 魯棒性測試結果
但和其他眾多的 AI 模型一樣,SeamlessM4T 也并不是完美的存在,仍然存在多種形式的偏見和誤差。
當輸入中性詞語時,輸出的結果偏 " 男性 "。例如,在不明确性别的時候,SeamlessM4T 大約有 10% 的概率傾向将性别表示為男性。Meta 推測,這可能是由于訓練數據的 " 男性 " 傾向更加明顯。
除了性别輸出偏好,SeamlessM4T 還有一些其他的問題。
例如在孟加拉語和吉爾吉斯語等一些語言中,SeamlessM4T 對社會經濟地位和文化進行了惡意翻譯,這類情況在涉及性取向和宗教的翻譯中更加嚴重。而這一點也得到了網友的驗證,并表示對此現象的出現十分失望。
來源:Cuenta Libra 推特
但是,Meta 聲稱,SeamlessM4T 的公開版本中包含了惡意評論的過濾器,能夠阻止惡意言論的輸入和輸出。
但實際情況确是,在模型的開源版本中,默認情況下并沒有這個過濾器。也正是由于這個原因,Meta 不建議将 SeamlessM4T 用于過長文本和嚴肅内容轉錄翻譯。
SeamlessM4T 可謂 Meta 多年來在翻譯器開發領網域的集大成者。去年,Meta 發布了一個能夠支持 200 種語言的文本轉文本翻譯模型 NLLB(No Language Left Behind),還推出了第一個針對閩南語的語音轉語音翻譯器。
今年 5 月,Meta 推出了一個多模語言翻譯器,能夠識别并合成 1100 多種語言的語音。SeamlessM4T 綜合了上述所有項目的研究成果。
未來,Meta 希望基于 SeamlessM4T 在翻譯器開發領網域進一步探索,最終創造一個沒有語言障礙的世界。