今天小編分享的科學經驗:陳丹琦團隊新作:數據量砍95%,大模型性能更強了!Less is More,歡迎閲讀。
造大模型的成本,又被打下來了!
這次是數據量狂砍 95%的那種。
陳丹琦團隊最新提出大模型降本大法——
數據選擇算法 LESS, 只篩選出與任務最相關 5% 數據來進行指令微調,效果比用整個數據集還要好。
指令微調正是讓基礎模型成為類 ChatGPT 助手模型的關鍵一步。
這樣一來,讓大模型術業有專攻,也就更便宜高效了。
更關鍵的是,所選的訓練數據還具備可遷移性,只要針對特定任務,在其他大模型以及各種類型的模型上同樣适用。
快來瞅瞅這篇新鮮出爐的論文到底説了什麼?
LESS 算法
目前指令微調釋放了大模型的強大功能,可有效利用組合數據集開發 ChatBot。
但面臨的挑戰在于,如何從這些數據集中識别出最相關的數據,從而來訓練專門的技能。這種情況稱為有針對性的指令微調。
為了解決這一難題,受過去相關研究——利用梯度信息估算單個訓練數據點影響的啓發,研究人員設計了一種優化器感知方法來選擇這些數據。
LESS(Low-rank gradiEnt Similarity Search),簡言之,優先使用對目标任務有直接幫助的數據進行訓練,而不是依賴表面形式特征。
主要分為四個步驟。
首先從訓練數據集摘取一小部分子集,用 LoRA 訓練出一個選擇模型。
随後,為單個訓練數據點計算 Adam LoRA 梯度特征,并将其保存在梯度數據存儲庫中。
第三步,選擇數據。對于具有少量示例的任務(含多個子任務),研究人員計算每個驗證子任務的梯度特征。再從存儲庫中選出排名前 5% 訓練子集。
最後,訓練目标模型。該模型可以使用 LoRA 或完全微調進行訓練。
其中第一步和第二步可以離線操作,每個候選訓練集 D 只需計算一次。
歸結起來,LESS 具備這樣幾個特性:
與 Adam 優化器兼容。LESS 将梯度信息與優化器狀态相結合,來研究數據對模型性能的影響。
高效。LESS 使用 LoRA 和随機投影來構建梯度數據存儲,該數據存儲具有低維、易操作的梯度特征,允許高效、有效地選擇數據集。梯度數據存儲可重復用于新的目标任務。
最終在評估結果中,MMLU、TydiQA 以及 BBH 的任務中,5% 數據量給大模型訓練比整個數據集訓練效果要好。
并且同随機選擇相比,LESS 性能始終高出 2 到 5 個百分點,這表明這一方法十分有效。
此外,他們還特别發現 LESS 具備可轉移性。
LLAMA-2-7B 上選擇的數據結果,在 LLAMA-2-13B 和 MISTRAL-7B 的性能(列表 LESS- T)同樣更好。
甚至有的表現還比自己用 LESS 的(列表 LESS)性能還好。
除此之外,還有可解釋性。LESS 選擇的數據具有與目标任務相似的推理和技能類型,而現有方法(比如 BM25、RDS)往往只根據表面形式線索(如語言或文本)選擇數據。
陳丹琦團隊出品
論文作者來自普林斯頓大學、華盛頓大學的研究人員。
普林斯頓計算機專業的博士生夏夢舟和 Sadhika Malladi 為共同一作。
其中夏夢舟本科畢業于復旦,碩士畢業于 CMU,目前是陳丹琦的學生。
在陳丹琦的個人主頁顯示," 這些天主要被開發大模型吸引 ",正在研究主題包括:
檢索如何在下一代模型中發揮重要作用,提高真實性、适應性、可解釋性和可信度。
大模型的低成本訓練和部署,改進訓練方法、數據管理、模型壓縮和下遊任務适應優化。
還對真正增進對當前大模型功能和局限性理解的工作感興趣,無論在經驗上還是理論上。
前段時間,他們曾提出爆火的" 羊駝剪毛 "大法——
LLM-Shearing 大模型剪枝法,只用 3% 的計算量、5% 的成本取得 SOTA,統治了 1B-3B 規模的開源大模型。
大模型科研的上半場是把參數搞上去實戰湧現,下半場嘛,less is more,更小的參數,更好的效果,幫助大模型在更多領網域更快落地。
論文鏈接:
https://arxiv.org/abs/2402.04333
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>