今天小編分享的科技經驗:垂類AI率先引爆行業!AI終于開始解決實際問題了,歡迎閲讀。
最近,一款名為 Manus 的產品頗受争議。
Manus 是什麼,它怎麼突然就火了?從官網展示的 demo 來看,Manus 主打的是針對某場景的實際應用,比如可以深度體驗產品并制作調研報告,再比如可以批量處理面試簡歷并打分排名。
圖源:Manus 官網
先不管 Manus 的争議如何,它的出現能導致刷屏,正好説明了 AI 領網域的一個新趨勢:AI 的發展不再盲目追求規模,而是開始深入挖掘實際價值。
無獨有偶,Manus 智能體橫空出世後,OpenAI 緊跟放大招,推出開發者工具鏈簡化智能體開發,幫助開發人員和企業構建有用且可靠的 AI 智能體。OpenAI 首席產品官凱文威爾直言:"2025 年将是智能體真正發揮作用的一年。到 2025 年,ChatGPT 将開始在現實世界中為你做事。"
這也讓我們看到了 AI 領網域的一個根本性變化:過去 AI 追求通用的廣泛能力,現在則更聚焦于在特定垂直領網域解決具體問題。
這個發展路徑并不意外,從歷史上看,科技行業的變革往往遵循一定的階段性規律。以互聯網時代為例,最初是那些 " 賦能者 " 受益,比如半導體公司,然後進入基礎設施的層面,包括雲計算、設備和電力供應相關的企業,最後才是應用和服務層面,比如抖音、微信、美團等,大部分的價值都會在應用推廣後釋放出來。
這個思路放在 AI 時代同樣适用,通用大模型建立了基礎設施,最後真正實現 AI 價值的,是基于通用大模型所衍生出來的垂類模型。
有兩個場景可以充分證明,一是醫療行業,二是翻譯行業。
雖然人工智能已經落地醫療多場景,但當前醫學領網域的專用垂類模型和以 DeepSeek 為代表的通用大模型還有很大區别。以藥物研發為例,據新華财經報道,多家生物醫藥企業表示,當前通用大模型對藥物研發的直接賦能仍然有限。
藥物研發目前還是依靠垂類模型。通用模型和垂類模型的差别主要取決于兩個方面,一個是訓練數據源的差異,另一個是反饋機制的差異。通用模型可用數據是龐大的、易獲得的;專有模型訓練用的數據是有較高質量要求的、精準的。
再以 AI 翻譯市場為例,不可否認的是,對于文字轉譯這種簡單翻譯需求,其實大模型都能滿足,但具有專業難度、容錯率低的翻譯需求,卻往往會讓我們對大模型持更大的懷疑态度,在準确性、專業性、安全合規性上,試錯成本太高,因此最後還是要求助專業工具。
即便強如 DeepSeek,有時候也會在回答結果上進行 " 思維湧現 ",可能會出現在文字上生造概念,堆疊名詞,濫用修辭的現象。簡單來説就是會畫蛇添足。這種自作主張對某個詞語的 " 優化 ",在專業場景中具有致命性,特别是在重要場合,或者醫藥翻譯上,錯誤代價太高。
而且,DeepSeek 有時候存在胡編亂造的可能,比如最典型的是在舉例的時候,很容易自己異想天開。比如以下例子,着實讓人贻笑大方。
圖源:DeepSeek
在需要精準度的專業領網域,通用大模型其引以為傲的 " 湧現能力 " 反而成為風險源頭。當技術進入實際產業應用階段時,建立精準的數據和場景适配,比單純增加模型參數更有意義。
因此現在我們能夠看到的一大趨勢就是,2025 年市場的焦點轉向垂類 AI 應用。
如果説 2024 年的主角是通用大模型,那 2025 年的主角絕對是小參數的垂類模型。
當業界還在熱議 DeepSeek-R1 開源戰略對 AI 生态的重構、持續探讨 Manus 智能 Agent 的技術突破時,國產大模型已在垂直賽道實現關鍵性跨越。
3 月 11 日,網易有道宣布完成翻譯底層技術迭代,基于自主研發的子曰翻譯大模型 2.0,在測試中實現翻譯質量超越國内外主流通用大模型,達行業第一。
我們也實測了一下,發現在很多專業領網域的翻譯中,有道大模型翻譯确實領先于市面上主流的通用大模型。
比如兩者分别輸入:"After the 52-week trial period, patients entered a 12-week follow-up safety period during which they were no longer receiving dupilumab or placebo。" 對比其翻譯結果。
可以看到,DeepSeek 無法将 "dupilumab" 進行本土化翻譯,仍是以英文的方式呈現,而有道詞典則是準确将 "dupilumab" 翻譯為度普利尤單抗。
另外,DeepSeek 把 "trial period" 翻譯成了 " 治療期 ",而正确的翻譯應該是有道詞典的 " 試驗期 "。
我不确定在醫療場景下," 治療期 " 與 " 試驗期 " 的差别是什麼,但僅從語義來看,兩者顯然會讓非醫學專業的同學產生誤會。
類似的例子還有很多,比如曾有通用大模型将臨床試驗報告中的 "placebo effect"(安慰劑效應)誤譯為 " 愉悦效應 ",仲裁案中,法律檔案裏的 "force majeure"(不可抗力)被譯成 " 主要力量 ";再比如某并購協定中的 "joint and several liability"(連帶責任)被翻譯為 " 聯合與單獨責任 ",引發合同雙方對責任範圍的重大誤解,最終需人工律師介入修正。
圖源:小紅書
之所以有道大模型翻譯的質量能做到比主流通用大模型高,背後就是垂類大模型的驅動。
2023 年 7 月,網易有道推出國内首個教育大模型 " 子曰 "," 子曰 " 大模型從一開始就定位為是一個 " 場景為先 " 的教育垂類大模型,相比于通用大模型,教育垂類大模型子曰擁有更專業的預訓練語料,可以滿足用户在不同場景下的學習需求。
目前子曰翻譯大模型已經來到了 2.0 階段,這背後,有道從數據、算法和效果評估三個核心環節入手,進行了全面的優化和更新。
在數據層面,有道精心收集了并嚴格清洗了數千萬高質量的翻譯數據,并由英語專八認證人員及職業譯員組成的專家團隊進行多維度人工标注,保證訓練數據的高質量。極大豐富了數據資源庫,讓模型在多樣化翻譯場景中遊刃有餘。
在算法層面,有道子曰翻譯大模型實現了兩大技術突破,分别是大模型融合與 Online DPO。
簡單來説,大模型融合就是像 " 專家會診 " 一樣翻譯,相當于有道子曰翻譯大模型如同組建了 " 全科專家團 "。使用大模型融合技術,通過結合不同大模型的優勢來避免災難性遺忘現象,确保模型在保持翻譯能力的同時,也不失綜合能力。
而Online DPO 則可以理解成翻譯界的 " 養成計劃 ",每次訓練生成一優一劣兩個譯文,讓模型學習更高質量的譯文,通過 3 輪對比淘汰機制強化模型的判斷力,自動标注翻譯偏好數據。經過海選→晉級→決賽三輪嚴格篩選,最終留下的都是 " 全能翻譯 "。
在評估層面,有道團隊人工标注了覆蓋各個領網域的開發集和盲測集,嚴格确保了測試數據的全面性和代表性。對算法團隊所使用的開發集和盲測數據集實行嚴格分離、相互獨立,以确保評估的客觀性與準确性,模型最終效果以盲測集效果為準。
在自動評估方面,有道不僅使用行業通用的 Comet 指标,還自主研發了更精準的大模型評估工具,進一步提升了翻譯質量檢測的可靠性。同時設計并執行了更完善的人工評估方案,從多維度對模型的翻譯結果進行細致地分析和評價。
正是通過這三個層面的全方位優化與更新,有道用一個小參數模型就能實現超越通用大模型的翻譯質量。而這樣的故事,在 2025 年還會湧現更多。
科技發展的核心就是解決問題。現在大家越來越清楚:到 2025 年,各種專業領網域的 AI 工具會迎來大爆發。
根據市場研究機構 MarketsandMarkets 的最新報告,垂類 AI 應用的市場規模預計将從去年 51 億美元大幅擴張至 2030 年的大約 471 億美元,到 2032 年還可能超過 1000 億美元。
在這樣的大背景下,以有道為代表的專業翻譯工具具有标杆意義。這場垂類 AI 革命給予行業的最大啓示,或許在于對技術本質的重新認知:AI 的價值不在于參數多少,而在于解決了多少實際問題。
當科技巨頭還在為 " 萬億俱樂部 " 的門票厮殺時,那些在垂直領網域默默耕耘的 " 有道 " 們,正在用更精巧的模型、更專注的投入,撬動百倍于通用模型的實際價值。這種 " 少即是多 " 的策略,或許才是穿越 AI 時代的真正指南針。
站在 2025 年的技術分水嶺回望,我們會發現一個有趣的現象:當通用大模型試圖用規模征服世界時,專業工具正在用深度重新定義邊界。其中,有道大模型翻譯就是一個将 AI 與實際應用結合的極佳典範。
這不僅是技術的勝利,更是對產業規律最深刻的敬畏:在任何領網域,專業主義永遠是不可替代的稀缺品。