今天小編分享的互聯網經驗:網易有道突破翻譯大模型,14B小參數垂類模型全量上線應用,歡迎閲讀。
圖片來自網易有道
3 月 10 日,钛媒體 APP 從網易有道獨家獲悉,有道翻譯大模型已經實現底層技術迭代,基于自主研發的子曰翻譯大模型 2.0,其中,14B 小參數垂類模型,實現了高水準的翻譯性能,現在已經全量上線。
14B 小參數垂類模型推出,意味着在訓練和推理時,AI 翻譯消耗的計算資源更少,部署的成本更低,更容易集成到現有系統和設備中,适合更多的實際場景。
钛媒體 APP 觀察到,搭載全新大模型的翻譯技術,已在有道詞典、有道翻譯及有道翻譯官内上線,提供标準模型和高級模型兩種不同參數的選擇,用户可直接切換使用。
與此同時,該大模型已經上線網易有道旗下智能硬體產品,有道詞典筆 X7 系列已更新為最新的翻譯大模型,其餘型号将陸續更新。
事實上,大語言模型的性能并非完全由參數量決定,很大程度上也依賴于數據質量、領網域适配性與算法優化的結合。
钛媒體 APP 了解到,網易有道之所以能夠實現 14B 小參數垂類模型,是因為,在數據層面,新的模型技術收集并清洗了高質量的翻譯語料數據,并由英語專業八級認證人員及職業譯員進行精細化人工标注,使得模型擁有海量的優質數據資源庫,增強其在多樣化翻譯場景的應對能力。
而在算法層面,有道以子曰大模型為基礎,進行了二次預訓練,打造了兼具專業性與針對性的翻譯基座大模型,結合大模型蒸餾技術、大模型融合技術和 Online DPO(在線直接偏好優化)技術等手段,避免了大模型的災難性遺忘等問題,并在運行效率、準确性、流暢性等翻譯性能上實現大幅提升。
最後是在評估層面,借助翻譯數據沉澱,有道研發了翻譯評估模型 Reward Model,為子曰翻譯大模型的性能評估,提供一個可靠的量化依據,以及完善的人工評估方案,多維度對模型的翻譯結果進行評估和分析。
垂類模型通過聚焦特定領網域,在特定任務的優化上,具備相對優勢。在垂直場景上,子曰翻譯大模型 2.0,在中英文互譯領網域有所突破,譯文的專業度和穩定性較前代版本均有提升。
此外,根據有道内部測評,新的翻譯模型在人文學科、商科、生活服務、醫療、科學等 19 個垂直領網域的多學科的專業性、準确性、語言慣例和風格等方面,展現出了相比之前更高的翻譯準确率和流暢度。
網易有道相關負責人對钛媒體 APP 表示," 通用大模型比的是參數大和算力強,但翻譯靠參數堆不出專業度。當通用大模型競逐參數規模時,我們更相信垂類模型的未來價值,用專業的垂直應用真正解決專業場景的痛點,也是我們持續努力的方向。"
大模型技術浪潮之前,有道翻譯技術主要基于統計機器翻譯及神經網絡翻譯技術(NMT)。
截至目前,有道全系翻譯產品擁有超 10 億用户。Quest Mobile 數據顯示,網易有道詞典月活躍用户數已超過 1 億,自 2019 年起,已連續六年位居教育類工具領網域榜首。(本文獨家首發于钛媒體 APP,作者|李程程)