今天小編分享的互聯網經驗:任度雙腦大模型:國内首創技術路線,突破AI技術邊界,歡迎閱讀。
禅宗有雲:" 以小見大,一花一世界,一葉一菩提 "。啟示我們即便在微小如一片葉子中,也能洞察到宏大的菩提智慧。
步入 AI 時代,企業在智能化轉型時,常面臨決策成本高、投入大且效果難以預料的挑戰。在此情境下,企業迫切渴望突破傳統 AI 推理與訓練邏輯,在大模型時代踐行 " 以小見大,見微知著 " 的理念,如同從一葉之中領悟菩提真谛,更精簡高效地駕馭智能化進程。
2021 年 AI 技術迅猛發展初期,就有聲音指出 Scaling Law(規模定律)可能存在局限性。然而,ChatGPT 從 2.0 到 3.0 再到 3.5 的連續迭代和巨大技術飛躍,使 Scaling Law 的有效性得到廣泛認可。但 ChatGPT 4.0 似乎觸及人類現有數據處理的極限時,該領網域探索似乎遇到瓶頸。
在此背景下,行業内開始深入探讨在通向 AGI 的征途中,除了依賴 Scaling Law 外,我們還需要哪些新的策略與方向。大模型的目标應當是追求 " 智慧 " 的提升,而不僅僅是參數規模。客戶期待的是大模型在自身實際場景中,像懂自己業務的專家一樣發揮實效,解決實際問題,而不是一個無關痛癢的外部顧問,也不是參數越大越好。大模型要真正在服務客戶時發揮内部專家作用,就不能僅僅停留在表面互動模式,而是必須深入客戶實際數據中進行深度理解和挖掘。因此,集中式預訓練模式需重新審視,實時學習和訓練模式更具探索價值。
一. 大模型的未來,不能完全押注在 Scaling Law 上
很多模型都在追随 OpenAI 的路徑,一味增加模型腦容量(即 " 參數 "),認為這樣能讓模型更聰明。然而近期大量論文表明,大模型的聰明程度與腦容量并非成正比,甚至腦容量增加,聰明程度反而降低。
近期,傳神推出的 " 任度數推分離大模型 " 獨辟蹊徑,采用雙網絡架構實現數推分離,把推理網絡與數據學習網絡分開。可将其理解為兩個協同聯動的大腦:一個是客戶數據學習網絡大腦,專注于數據的動态管理與迭代訓練,為模型持續注入知識;一個是推理網絡大腦,作為經大量數據預訓練的基礎網絡,有良好的推理和泛化能力。雙網絡通過共享嵌入層和中間表示層協同工作,形成類似 " 主腦 " 與 " 輔腦 " 的高效配合模式,既支持獨立訓練,也支持聯合推理。
憑借這一創新模式,傳神成為全球大模型領網域第一家實現數推分離技術路線的人工智能企業,也是中國人工智能在行業内的重大突破。
(一)打破上下文輸入長度限制,實現實時的數據學習效果
數推分離的雙網絡架構,能夠突破常規大模型數推混合一體技術架構限制,使得推理大腦成熟後,數據大腦還可以持續不斷地學習接入的數據,并且不影響推理大腦的能力。因此,對于雙網絡架構來講,上下文輸入長度不再受限,可将類似 1 億字數據乃至更多數據壓縮到神經網絡中實現深度知識理解。
任度大模型的技術架構無需通過大量參數存儲數據來豐富知識,它可依靠數據大腦在客戶場景中實時學習數據。這樣能大幅降低參數規模,進而減少訓練和推理的硬體投入成本。
這種架構能随着客戶業務發展產生的新數據持續學習并提升完成數據壓縮。在數推分離模式下,更新數據的網絡壓縮對推理網絡影響極小,能廣泛适應各種場景,靈活處理數據,訓練時間可縮短至分鍾級。
(二)客戶本地即可完成數據學習訓練,确保數據安全無憂
雙網絡大模型架構可以降低訓練推理的算力和能耗成本,還能有效避免一體化大模型在客戶數據微調訓練時出現的基座模型能力退化和泛化能力減弱問題。而且,數據網絡學習客戶數據無增加算力和專業人員,數據可在客戶現場完成訓練,學習企業歷史數據和新數據,消除企業的數據安全擔憂。
任度的數推分離雙腦模式在應用中,解決了客戶定制大模型的三大難題:客戶數據需離場、向量效果差、人才投入高,實現本地實時學習,讓客戶數據快速轉化為 " 專家 " 為客戶服務。重要的是,客戶數據本地訓練不傳公有雲,保障了數據隐私安全。
二 . Scaling Law 不是萬能的,性參比才是根本,本土企業需另辟蹊徑
在中國市場,大型語言模型尚未充分體現 Scaling Law。在 AGI 領網域,Scaling Law 涉及算力、算法、數據三要素,其實現需大量資金支持。過去一段時間,甚至有國際大公司宣稱在大數據、大算力背景下,算法一文不值。
傳神語聯創始人何恩培認為,僅依賴 Scaling Law 的大模型路線已遇瓶頸,要真正突破需依靠算法與架構。事實上,在不同算法與框架下,模型性能不總與參數規模成正比,采用創新架構的小參數模型憑借高效算法設計,也能有強大性能,甚至在特定指标上超越常規大參數模型。
目前,雙網絡架構的數推分離大模型已應用于任度 " 雙腦 " 大模型一體機,其内置的任度大模型有 9B 和 2.1B 兩種參數。在多項國内外測評中,9B 參數模型與數百億乃至千億參數大模型對比脫穎而出,以更少的參數實現領先性能。
事實上,過高的成本投入已使大模型開發商和使用企業裹足不前。而最佳方案顯然是企業能以最低成本實現大模型應用。相較于大參數模型,小參數模型降低了算力投入和資源消耗,更适合商業落地,且滿足通用場景應用需求,是驗證大模型落地可行性的便捷方式。所以,傳神語聯未來會加大在算法和架構提升大模型能力方面的研發投入,持續迭代。
何恩培堅信," 算法制勝 " 是具有中國特色的技術路徑之一,這符合中國人的聰明智慧,在以大模型為代表的 AI 時代尤為重要。相信中國有很多像傳神這樣的團隊在默默耕耘,正在以獨特理念引領智能創新,只是他們現在還未走向台前,但終将會成為中國 AI 技術發展的重要力量。