今天小編分享的科技經驗:Google DeepMind 學者研發Focused Transformer ,擴展大模型輸出長度限制,歡迎閲讀。
品玩 7 月 11 日訊,據 Arxiv 頁面顯示,Google DeepMind 研究團隊近日聯手華沙大學和波蘭科學院等機構,研發一項名為 Focused Transformer 的技術。
Focused Transformer 技術旨在通過對比訓練來擴展上下文長度的方法,可以用于大型語言模型。Focused Transformer 技術通過對比訓練來增強 ( key, value ) 空間的結構,從而擴展了上下文長度。這項技術使得已經預訓練的大型語言模型可以被重新訓練來延長它們的有效上下文。
論文顯示,研究團隊使用一款名為 LongLLaMA 的大模型進行測試。經過實驗,研究團隊已經成功使用 LongLLaMA 模型在密碼檢索任務中實現了 256K 的上下文長度。