大模型免微調解鎖對話能力，RLHF沒必要了！一作上交大校友：節省大量成本和時間 - 大酷樂

今天小編分享的科學經驗：大模型免微調解鎖對話能力，RLHF沒必要了！一作上交大校友：節省大量成本和時間，歡迎閱讀。

要搞大模型 AI 助手，像 ChatGPT 一樣對齊微調已經是行業标準做法，通常分為 SFT+RLHF 兩步走。

來自艾倫研究所的新研究卻發現，這兩步都不是必要的？？？

新論文指出，預訓練完成剛出爐的基礎模型已經掌握了遵循指令的能力，只需要提示工程就能引導出來，引起開發社區強烈關注。

因為 RLHF 的成本非常高訓練還不穩定，這樣可就省了大錢了。

研究據此提出一種新的免微調對齊法 URIAL。

論文中把新方法形容為" 解鎖基礎模型潛力的咒語 "，能夠節省大量算力資源和時間。

更值得關注的是，不掌握穩定 RLHF（人類強化學習）能力的小型團隊，也能低成本開發出可以聊天對話、遵循指令的對齊模型了。

目前 URIAL 代碼和新評估基準 Just-Eval-Instruct已開源，剛剛上傳不久。

研究來自艾倫研究所和華盛頓大學Yejin Choi團隊，過去曾提出 Top_p 采樣，在如今大模型 API 調用中是常用參數。

一作研究員林禹辰是上交大校友。

打破 SFT+RLHF 神話

最早讓人們開始質疑對齊微調的，是一項 Meta 等在 5 月份一項研究LIMA。

LIMA 指出只需要 1000 個樣本做 SFT（監督微調），就可以匹配 ChatGPT 的性能。

論文中 LIMA 團隊還探讨了" 表面對齊假設 "（Superficial Alignment Hypothesis）：

模型的知識和能力幾乎都是在預訓練階段學到的，對齊則是教會模型在與用戶互動時應使用哪些特定格式的子集。

換句話說，對齊階段只是調整模型的語言風格，沒有增強模型的能力。

從表面對齊假設出發，URIAL 團隊做了充分的實驗，對比基礎模型和對齊模型之間的token 分布偏移（TDS，token distribution shifts）。

實驗選用 3 組基礎模型與對齊模型做對比，結果表明：

對齊僅影響一小部分 token。基礎模型和對齊模型在大多數位置的解碼中表現相同，共享排名靠前的一組 token。

對齊主要涉及文風相關的 token，如話語标志（discourse markers，" 首先、其次、總之、然而…… " 這些）、過渡詞和安全免責聲明，只占 5-8%。‍

對齊對較早出現的 token更重要（生成内容的開頭），在後續位置對齊模型排名最高的 token，基本位于基本模型排 top-5 的 token 之内。

基礎模型已經獲得了足夠的知識來遵循指令，給定合适的上下文作為前綴時，它們的行為與對齊模型非常相似。

接下來的問題就是，不用 SFT 和 RLHF 的情況下，如何把一個基礎模型變成能多輪對話、遵循指令的 AI 助手？

免微調對齊法 URIAL

團隊的免微調對齊法 URIAL（Untuned LLMs with Restyled In-context ALignment），純粹利用基礎模型的上下文學習能力實現有效對齊，只需三個風格示例和一個系統提示。

在實驗中，團隊使用 URIAL 方法對齊 7B、70B 的 Llama2 以及 Mistral-7B 大模型。

結果表明當基礎模型很強時，URIAL 的表現甚至優于 SFT 和 RLHF。

團隊認為 URIAL 方法的主要貢獻有：

實施起來非常簡單，并且可完美重現，從而有助于未來新的免微調和微調對齊方法的開發和評估。

可輕松對齊大尺寸模型（如 Llama2-70b 甚至 Falcon-180b），節省大量算力和時間。

可用于在預訓練過程中頻繁評估基礎模型，監控基礎模型的質量。

可用于公平比較不同基礎模型之間的對齊潛力。過去不同模型的微調過程可能差異很大（例如數據、訓練方法、超參數等），不能直接反映基礎模型的質量。

還可用于探索大模型對齊的科學，例如分析基礎模型在預訓練期間已經獲得的知識和技能，識别缺失的内容，而不是盲目地利用大量數據進行微調，從而產生不必要的計算成本。

實驗也探索了 URIAL 中示例的不同數量，如果提高到 8 個，一些指标中有明顯提升，但一些指标中也有下降，最終作者推薦用 3 個比較平衡。

對于改用不同的示例也比較穩健。

如果把之前對話作為示例的一部分，URIAL 也可以讓基礎模型獲得多輪對話的能力。

One More Thing

論文中實驗的 Llama-2 和 Mistral，其實總體來說都屬于羊駝家族。

URIAL 免微調對齊法是否用于羊駝架構之外的大模型？

由于不是羊駝的開源大模型不好找，我們試了試剛剛發布的。

Mamba 是一種狀态空間模型，别說不是羊駝了，連 Transformer 都不是。

使用論文附錄提供的一份 URIAL 标準提示詞，簡單測試發現同樣适用。

使用 URIAL 詢問" 你能用 6 歲小朋友也能聽懂的方式解釋什麼是狀态空間模型嗎？"。

Mamba 将數學定義的狀态比喻成了車在路上的位置，比較簡單易懂，甚至給出 markdown 格式的圖片鏈接，試圖圖文并茂回答問題。

如果不使用 URIAL 直接輸入這個問題，Mamba 的表現就是基礎模型那樣補全下文而不是回答問題了，解釋的内容也是車轱辘話來回說。

論文：

https://allenai.github.io/re-align/

參考鏈接：

[ 1 ] https://twitter.com/IntuitMachine/status/1732089266883141856

[ 2 ] https://arxiv.org/abs/2305.11206

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>