今天小編分享的科技經驗:AI圈炸了!微軟解封Transformer,序列長度擴展10億+,歡迎閱讀。
大數據文摘出品
AI 圈炸了!微軟推出的 LONGNET 成功将 Transformer 的 Token 處理能力擴展到了 10 億 +。
要知道,之前大家一直誇 Transformer 的理解能力和短序列生成能力,對長序列一直 " 有心無力 "。
微軟這一次操作相當于讓一個短跑冠軍擁有了極速跑馬拉松的能力。畢竟,處理長序列的同時,處理短序列任務時依然保持優秀的性能。
LONGNET is a Transformer variant that can scale sequence length to more than 1 billion tokens, with no loss in shorter sequences.
對此,網友評論:這是一場革命!
因為,這項工作為建模長序列提供了新的思路和可能,未來,甚至有望将整個互聯網語料視為一個 Token。同時,意味着更復雜的 AI 互動成為可能。
LONGNET 解封序列長度
Transformer 模型是許多 AI 系統的核心架構,工作原理是處理由 Tokens 組成的信息序列,從而理解或生成文本。
注:Token 可以是簡短的單詞或者完整的句子。
全局注意力機制
全局注意力(global attention)是 Transformer 理解能力的關鍵所在,它允許一個 Token 與其他所有 Token 進行 " 互動 "。序列一旦變得越長,互動次數呈指數級增長,大大增加了計算復雜性。
上段内容有點抽象,解釋一下:想象一下,你試圖與房間裡的每一個人分别進行對話。如果只有幾個人,這是可以應對的。但随着人數的增加,很快就變得難以承受。
ChatGPT 就是 OpenAI 基于 Transformer 開發的,大家在使用它進行上下文對話的時候,會發現它會經常 " 忘 " 了你之前給他說過的話。
以後,有了 LONGNET 就解鎖了 ChatGPT 無限對話能力,它會記起你最開始的提問。
LONGNET 的核心:擴張注意力的力量
在 LONGNET 這項工作中,微軟的研究員将一種稱為 " 擴張注意力 "(dilated attention)的新穎概念引入到 Transformer 模型中,從根本上改變了模型處理序列的方式。
擴張注意力的妙用在于,距離增大時能夠關注更多的 Token,而無需讓每個序列與其他所有序列互動。
就像,在人群中既能關注到附近的人,也能關注到遠離的人,但不需要與每個人單獨交談。
圖注:擴張注意力在 LONGNET 中使用的構建模塊。包括一系列用于建模短程和長程依賴關系的注意力模式。注意力模式的數量可以根據序列長度進行擴展。
這和稀疏注意力模式很像,但借鑑了線段樹的思想。能讓與序列長度成指數關系增長的互動次數變為線性增長。話句話說,随着序列變得越來越長,計算工作量的增加變得更容易應對。
擴張注意力不僅讓 LONGNET 更高效,還讓其更具靈活性。因為不需要與每個序列互動,還可以根據任務調整關注焦點,這使得它能夠有效處理短序列和長序列。
LONGNET 在通用語言任務方面也表現出色。這意味着它不僅是一種專門用于長序列的工具,而且是一種能夠處理許多任務的穩健且靈活的模型。
圖注:不同方法之間計算復雜性的比較。N 是序列長度,d 是隐藏層的維度。
此外,研究人員将 LONGNET 與傳統的 Transformer 和稀疏 Transformer 進行了對比。為了進行比較,他們将這些模型的序列長度從 2,000 個标記(2K)擴展到 32,000 個标記(32K)。為了确保比較的公平性,他們調整了各模型的參數。盡管在計算上有一定限制,但實驗結果仍然非常出色。
同時,增加模型參數從 1.2 億到 27 億,随着 LongNet 的計算量增加,在測試集上的 PPL 也随之降低。這體現出,LongNet 同樣滿足 scaling law。訓練更大的語言模型可能能取得更好的表現。
LONGNET 并非沒有局限,例如雖然擴張注意力機制将計算復雜性降低到低于标準 Transformer 模型的水平,但處理超過 10 億個标記的序列仍然需要大量資源。此外,雖然有強大的性能,但可能仍需要進行更多的測試和驗證。
微軟也提出了關于 LONGNET 的未來研究方向:如何進一步優化擴張注意力機制?是否有其他序列處理技術可以與擴張注意力相輔相成?如何将 LONGNET 有效地整合到現有的 AI 系統(如 ChatGPT)中?
論文地址:
https://arxiv.org/abs/2307.02486
參考來源:
https://thetechpencil.com/revolutionizing-ai-with-longnet-microsofts-breakthrough-in-handling-billion-token-sequences-59b05ef7d6e8
https://mp.weixin.qq.com/s/Qns4Oi8-YHWb7WP3_gGZUA
點「在看」的人都變好看了哦!