兆級長文本，已是一線大模型機構标配能力

今天小編分享的科學經驗：兆級長文本，已是一線大模型機構标配能力，歡迎閱讀。

" 據我了解，國内多個一線大模型機構，都已經突破了兆級的長文本能力。"

以上，是 "2024 全球開發者先鋒大會 " 大模型前沿論壇會間隙，上海人工智能實驗室領軍科學家林達華與量子位的交談剪影。

林達華，深度學習與計算機專家，香港中文大學教授，他是商湯聯合創始人，也是商湯創始人湯曉鷗的學生，是國際上最具影響力的視覺算法開源項目 OpenMMLab 的主導發起人。在大模型時代，他帶領了書生 · 浦語 InternLM 開源大模型體系以及 OpenCompass 司南大模型評測體系的研發工作。

林達華預估，第一季度左右，各家都會對大模型上下文視窗兆級能力 " 亮劍 "。

同時，他表達了與月之暗面同樣的态度，即大海撈針其實沒有那麼難。

難的是海裡不止一根針，應有無數的碎片化信息藏在各個地方，（大模型）把所有東西串接一起，做比較深層次的結論。

就像讀福爾摩斯偵探小說，讀完後綜合判斷兇手是誰——這就不是一個簡單的檢索問題。

近期，各家大模型于長文本賽道上卷生卷死，但是否應把它作為最主要的方向去打磨，大家有不同的判斷。

林達華點出，應該要評估衡量超長文本能力的計算代價，" 無損長上下文視窗，每一次響應都是很昂貴的過程，對應用來說，這個性價比是不是最理想的？我覺得值得探讨。"

長文本相關問題只是林達華表達自己思考和見解的一小個片段。

在這場大模型前沿論壇上，他以業界躬身入局者的身份，回望過去 " 群模亂舞 " 的一年，總結出大模型賽道的四點現狀：

OpenAI 引領技術潮流，Google 緊緊追趕，Claude 異軍突起；

上下文、推理能力、更高效的模型架構是技術探索的重點方向；

輕量級模型嶄露頭角；

開源模型快速發展，開放生态已成氣候。

林達華還表示，大模型時代，技術演進有兩股主要的驅動力量：

一是對 AGI 的追求，對 Scaling Law 的信仰；

二是對大模型帶來新一次產業變革的憧憬。

除此之外，更詳細的回望和前瞻性觀點，在林達華口中一一道來。

模型架構：從追求參數到追求更高效的 Scale

Transformer 架構對計算資源的消耗巨大。

前幾日的黃仁勳與 Transformer 七子路邊對話中，Transformer 作者 Aidan Gomez 語氣堅定，" 世界需要比 Transformer 更好的東西（the world needs something better than Transformers）"。

業界已經開始從追求參數，過渡轉換為追求更高效的規模。

其中，MoE值得關注，業界同時在探索 Mamba 模型等，以低復雜度的注意力架構更高效地處理上下文。

訓練數據：從追求數量到尋求規模化構造高質量數據的路徑

訓練數據包括三要素：

規模、質量、多樣性。

在規模方面，早在 ChatGPT 之前，DeepMind 等研究報告已指出訓練數據要和模型參數同步增長。

而訓練數據的質量對模型水平影響很大，低質量數據對模型可能產生破壞性影響。增強數據的知識密度，能帶來更高的訓練效率。

此外，好的數據集是非常多樣化的，均衡分布在充分大的語義空間中。

互聯網語料數據的分布極不均勻，存在大量低水平重復的語言模式，可能帶來模型能力的塌縮，"10% 的帶有重復模式的數據注入到訓練集裡，有可能會使得模型降級到原來 1/2 的體量。"

合理的 resampling（重采樣）策略能大幅度降低其負面影響。因此，業界也在從追求訓練數據數量，過渡向到尋求規模化構建高質量數據。

多模态：多模态融合将成為重要趨勢，技術探索仍在路上

多模态融合将成為重要技術趨勢，但技術探索仍在路上。

相比語言，多模态模型的訓練多了一個重要維度，即影像和視頻的分辨率對多模态模型最終的性能表現有重要影響。

如果使用非常高的分辨率進行多模态的訓練和推理，模型能夠得到巨大提升，但高分辨率會帶來高計算成本。

" 如何在高分辨率和合理計算成本之間取得最佳平衡，這為架構研究帶來了很大的創新空間。"

智能體：大模型應用的重要形态，但需要核心基礎能力的支撐

要讓大模型真正進入到應用的場景和生產的場景的時候，它需要跟系統、跟場景、跟裡面所有的事情互動。因此，需要給大模型裝上手腳，然後就能不斷地發出指令做出反饋，這就是一個智能體，這就是場景應用價值的系統。

智能體并不是一個簡單的流程化過程。

它需要建立在一個非常堅實的基礎模型上，具有很強的指令跟随能力、理解能力、反思能力和執行能力。如果這些能力都不具備，其實串接在一起仍然不然獲得你所理想中的那種智能體的能力。

這裡面是實驗室把智能體具像化，智能體不一定是機器人，它可以是各種軟體系統。

計算環境：雲側還在指數式成長，端側即将迎來黃金增長期

芯片進入到後摩爾定律時代，未來算力會變成體量的拓展，越來越多的芯片連接在一起，建成越來越大的計算中心，支撐對通用人工智能的追求。

最終瓶頸不再是芯片，而是能源。

現在，小規格的大語言模型已具備較強性能水平和實用可能性，優秀的模型越做越小，可以進入到手機直接運行。

林達華表示，随着端側算力快速增長，端側即将迎來黃金增長期，雲端協同将成為未來重要趨勢，由雲側計算建立天花板，端側計算将支撐用戶使用大規模放量。

國内外差距：和 GPT-4 真正差距是推理能力

國内前列的模型在主客觀表現上都超過了 GPT-3.5。

但同時需注意，國内大模型與 GPT-4 的真正差距在于推理能力。

林達華稱，特别是随着推理難度的提升，GPT-4 和其他模型，重量級模型和輕量級模型逐漸拉開差距。相比常識推理、演繹推理，歸納推理是差距最大的類型。

在對談中，林達華還表達了對國内大模型落地的看法。

觀國内當下的最大的優勢，是應用場景非常非常多。

如果有套生态，能夠讓大家用大模型去探索在哪些地方能用，哪些地方不能用，在應用上的探索速度和體量可能更快。

不過，他同時表示：

不能因為我們在應用落地上的繁花似錦，就掩蓋我們去思考另一個問題——歸于最終，還是要提升創新能力和原創水平。

— 聯系作者 —