微軟打破Decoder-Only架構！大幅降低GPU内存需求，網友：把Llama3 70B弄20GB GPU上運行 - 大酷樂

今天小編分享的科學經驗：微軟打破Decoder-Only架構！大幅降低GPU内存需求，網友：把Llama3 70B弄20GB GPU上運行，歡迎閲讀。

微軟 & 清華最新研究，打破 GPT 系列開創的 Decoder-Only 架構——

提出 Decoder-Decoder 新型架構，名為 YOCO（You Only Cache Once）。

YOCO僅緩存一次鍵值對，可大幅降低 GPU 内存需求，且保留全局注意力能力。

一張圖來看 YOCO 和标準 Transformer 的比較。

在處理 512K 上下文長度時，标準 Transformer 内存使用是 YOCO 的 6.4 倍，預填充延遲是 YOCO 的 30.3 倍，而 YOCO 的吞吐量提升到标準 Transformer 的 9.6 倍。

去年一張 " 大語言模型進化樹 " 動圖在學術圈瘋轉，模型架構還只有三大類：Decoder-Only、Encoder-Only、Encoder-Decoder。

那麼這個新出的 Decoder-Decoder 架構到底長啥樣？

嗯，如網友所言，要讀的論文又增加了。

話不多説，一起來看。

打破 Decoder-Only

YOCO 整體架構設計如下，分為自解碼器（Self-Decoder）和交叉解碼器（Cross-Decoder）兩部分。

具體來説，YOCO 由 L 個塊堆疊而成，其中前 L/2 層是自解碼器，其餘模塊是交叉解碼器。

自解碼器利用高效自注意力（efficient self-attention）機制來獲取鍵值（KV）緩存：

接收輸入序列的嵌入表示，并使用高效自注意力來生成中間向量表示；使用因果掩碼（causal masking）保證解碼的自回歸特性；自解碼器的輸出用于生成全局 KV 緩存。

而交叉解碼器使用交叉注意力（cross-attention）來重用自解碼器生成的共享 KV 緩存：

在自解碼器生成的 KV 緩存基礎上進行堆疊，以獲得最終的輸出向量；同樣使用因果掩碼來維持自回歸生成；允許交叉解碼器層間高效地重用 KV 緩存，減少了對 GPU 内存的需求。

總的來説，自解碼器和交叉解碼器的模塊設計與 Transformer 的解碼器層類似，包含交錯注意力和前饋網絡子層。不過，研究人員還進行了預 RMSNorm、SwiGLU 和分組查詢注意力等改進。

兩部分之間的區别在于注意力模塊。

自解碼器使用高效自注意力，如滑動視窗注意力（Sliding-Window Attention）或門控保留（gated retention）。

而交叉解碼器使用标準的多頭交叉注意力，Query 向量通過注意力與自解碼器產生的全局鍵值緩存相關聯。

推理大幅度省省省

實驗階段，研究人員将 YOCO 模型與同體量的 Transformer 模型進行比較。

分析維度有四個：語言建模評估、與 Transformer 比較的可擴展性、長上下文評估、推理優勢。

語言建模評估

研究人員訓練了一個 3B 參數的 YOCO 語言模型，并根據訓練 token 數量（1T 和 1.6T）進行評估。

在 LM Eval Harness 的多個下遊任務上，YOCO 與 Transformer 模型 OpenLLaMA-3B-v2、StableLM-base-alpha-3B-v2、StableLM-3B-4E1T 打得有來有回。

可擴展性對比

接着，研究人員在 160M 到 13B 參數規模範圍内，分别訓練了 YOCO（門控保留和滑動視窗注意力版本）和 Transformer 語言模型。

對比了它們在驗證集上的語言模型損失，YOCO 的表現與 Transformer 基本持平：

結果證明 YOCO 在模型大小擴展方面具有很強的可擴展性。

長上下文評估

将 3B 的 YOCO 模型擴展到上下文為 1M，在 " 大海撈針 " 等長序列的 needle retrieval 任務上，YOCO-3B-1M 的準确率接近 100%。

在多針檢索任務上，YOCO-3B-1M 的性能優于一些超 3B 的 Transformer 模型：

此外，YOCO 模型在長序列上的 NLL 随着上下文長度的增加而一致下降，表明 YOCO 能夠有效地利用長距離依賴信息進行語言建模：

綜上，可見 YOCO 在性能上完全不輸 Transformer，關鍵來看 YOCO 在推理效率上取得的顯著提升。

推理優勢

研究人員評估了 YOCO 在 GPU 内存占用、prefilling 延遲、吞吐量和服務容量等方面的優勢，評估上下文範圍為 32K 至 1M。

如下圖所示，與 Transformer 相比，YOCO 大幅度降低了 GPU 内存占用，且 YOCO 的内存消耗随上下文長度增加，增長幅度很小。

例如，在 1M 長度下，整體推理内存使用量僅為 12.4GB，而傳統的 Transformer 則占用了 9.38 倍的 GPU 内存。

下面展示了 token 的 KV 緩存對 GPU 内存的占用情況。

YOCO 模型只緩存一層全局的鍵值對，因此與 Transformer 模型相比，它需要的内存約少了 L（指模型的層數）倍。

例如，YOCO 模型可以使用 1GB 的 GPU 内存來處理 128K token。而具有 GQA 的 Transformer 65B 大小模型，僅能支持 1.6K token。

也就是説，模型越大，YOCO 可以節省更多。

在預填充階段，模型并行編碼輸入 token。對于 512K 和 1M 長度的輸入，Transformer 分别需要大約 180 秒和 300 秒。Transformer 的計算復雜度為 O ( N^2 ) ，處理長上下文需要大量的浮點運算操作。

相比之下，YOCO 的預填充時間為 O ( N ) ，随序列長度線性增長。

YOCO 将 Transformer 的 512K 上下文預填充時間從 180 秒減少到不到 6 秒。

預填充階段可以在進入交叉解碼器之前提前退出。因此，即使對于短上下文，預填充延遲的加速至少是兩倍。例如，對于 32K 長度，YOCO 比 Transformer 快 2.87 倍。

吞吐量表示模型每秒可以處理多少個 token，涵蓋了預填充和生成時間。如下圖所示，與 Transformer 相比，YOCO 在不同上下文長度下實現了更高的吞吐量。

以 512K 查詢為例，Transformer 的吞吐量為 4.5 token/ 秒，而 YOCO 達到了 43.1token/ 秒，即實現了 9.6 倍的加速。

吞吐量提高的原因如前所述，YOCO 減少了預填充所需的時間。其次，由于内存消耗減少，因此可以在推理時使用更大的批量大小，這也有助于提高吞吐量。

詳細細節，感興趣的家人們可以查看原論文。

論文鏈接：https://arxiv.org/abs/2405.05254

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>