今天小編分享的科技經驗:手機能跑!微軟小模型擊敗Llama 2,96塊A100 GPU訓練14天,參數規模僅27億,歡迎閱讀。
智東西(公眾号:zhidxcom)
作者 | 程茜
編輯 | 李水青
智東西 12 月 13 日報道,昨日晚間,微軟又亮出了小模型大招!
微軟發布了 27 億參數規模的小語言模型 Phi-2,經研究人員測試,Phi-2 在參數規模小于 130 億的模型中展示了最先進性能。
從性能表現看,Phi-2 在 Big Bench Hard(BBH)、常識推理、語言理解、數學和編碼基準測試中,其平均性能得分已經超過 70 億、130 億參數規模的 Mistral 和 Llama 2,在部分基準測試中超過谷歌的 Gemini Nano 2。
Phi-2 還有一大優勢是,因為參數規模足夠小,其可以在筆記型電腦、手機等移動設備上運行。
過去幾個月間,微軟研究院的機器學習基礎團隊陸續發布了小型語言模型(SLM)Phi 系列。
其中,第一個模型為 13 億參數規模的 Phi-1,官方博客稱,Phi-1 在 SLM 中的 Python 編碼方面表現最好,在 HumanEval 和 MBPP 基準測試上尤甚。第二個模型為 13 億參數規模的 Phi-1.5,這個模型的重點為常識推理和語言理解能力。
現在微軟發布的 Phi-2 能為研究人員探索機器可解釋性、安全性改進或對各種任務的微調實驗上提供幫助,目前,Phi-2 已經從 Azure AI Studio 模型目錄中開放給研究人員。
一、96 塊 A100 GPU 訓練 14 天,參數規模僅 27 億
一些大模型的參數規模達到數千億的量級,使得其湧現出眾多新興能力,那麼,是否可以通過改變訓練策略等方式讓更小的參數實現這些能力?微軟的小型語言模型(SLM)系列或許是這一問題的答案。
Phi-2 是一個基于 Transformer 架構的模型,具有下一個單詞預測目标,在用于 NLP 和編碼的合成數據集和 Web 數據集的混合上多次傳遞的 1.4T tokens 上進行訓練。
Phi-2 在96 個 A100 GPU 上訓練了 14 天,作為一個基礎模型,其沒有通過人類反饋強化學習(RLHF)進行對齊,也沒有進行指令微調。
盡管如此,與經過調整的現有開源模型 Llama 2-7B 相比,研究人員觀察到在避免生成有攻擊性、有害和内容有偏差方面 Phi-2 的表現也不差。
研究人員根據 ToxiGen 的 13 個人口統計數據計算的安全評分,他們選擇 6541 個句子的子集,并根據困惑度和句子 " 毒性 " 進行 0 到 1 之間的評分。分數高就說明,模型產生有攻擊性、有害句子的可能性較小。
▲ Llama 2 與 Phi-2 在生成有攻擊性、有害和内容有偏差方面性能比較(圖源:微軟官方博客)
微軟使用 Phi-2 打破了傳統語言模型縮放定律,其中有兩個關鍵環節:
第一是訓練數據的質量對模型的性能至關重要。微軟的模型訓練數據包含專門創建的合成數據集,用于教授模型常識推理,還包括科學、心理等領網域的常識。
研究人員還挑選了一些網絡數據進一步擴充訓練語料庫,并基于内容的價值和質量進行了數據過濾。
此外,從 13 億參數規模的 Phi-1.5 開始,微軟的研究人員實現了規模化的知識轉移,将 Phi-1.5 的知識嵌入到 27 億參數的 Phi-2 中。這種方法不僅加速了訓練收斂,而且提高了 Phi-2 的基準分數。
▲ Phi-2 和 Phi-1.5 比較(圖源:微軟官方博客)
二、基準測試擊敗 Llama 2、Mistral、Gemini Nano 2
微軟總結了 Phi-2 在學術基準上與主流語言模型的性能表現對比。
其基準測試涵蓋 Big Bench Hard(BBH 數據集)以及 PIQA、WinoGrande、ARC easy、Challenge、SIQA 的常識推理、HellaSwag、OpenBookQA、MMLU、SQuADv2 的語言理解數據集,GSM8k 數學數據集和 HumanEval、MBPP 的編碼數據集等。
27 億參數規模的 Phi-2,在 BBH、常識推理、語言理解、數學、編碼各項基準測評上都超過了 70 億、130 億參數規模的 Mistral 和 Llama 2。
相比于參數規模差距在 25 倍的 700 億參數 Llama 2,Phi-2 在編碼、數學等多步推理任務上表現更好。
▲ Llama 2、Mistral、Phi-2 性能比較(圖源:微軟官方博客)
此外,微軟還比較了 Phi-2 與谷歌最近發布的 Gemini Nano 2,谷歌發布的模型參數規模為 32.5 億,Phi-2 的性能表現部分優于 Gemini Nano 2。
▲ Phi-2、Gemini Nano 2 性能比較(圖源:微軟官方博客)
考慮到一些公共基準測試的數據可能會洩漏到訓練數據中,微軟對第一個模型 Phi-1 進行了廣泛的淨化研究以排除這種可能性。
基于判斷語言模型的最佳方法是在具體用例上對其進行測試的考量,研究人員使用了多個微軟内部專有數據集和任務評估了 Phi-2,并再次将其與 Mistral 和 Llama 2 進行比較,其結果為,平均而言 Phi 2 優于 Mistral-7B,後者優于 70 億、130 億、730 億參數規模的 Llama-2 模型。
除了基準測試外,研究人員還測試了社區内的一些常用提示,他們觀察到的表現也與基準測試的結果預期一致。
其中,研究人員測試了用于評估谷歌 Gemini Ultra 模型在解決物理問題方面能力的問題。
與 Gemini 的測試類似,研究人員進一步向 Phi-2 詢問學生的錯誤答案,來确認它是否能識别出錯誤所在。
不過,從輸出結果來看,這并不完全是與 Gemini 報告中描述的 Gemini Ultra 輸出的同類比較,Gemini 測評中學生的答案上傳了手寫文本的影像,Phi-2 的測試采用的是原始文本。
結語:大模型時代,小模型仍在崛起
Phi-2 的參數規模僅有 27 億,但相比于參數規模更大的 70 億、130 億模型,其性能表現仍不遜色。微軟專注于小模型市場的布局,也印證了大模型時代小模型的價值。
微軟與 OpenAI 的緊密合作,使得 GPT 模型的表現在大模型市場一騎絕塵,再加上微軟參數規模更小的 Phi 系列,能進一步搶占開源模型長尾市場。不過從目前來看,Phi 系列僅被允許用于研究目的。
從市場來看,越來越多的玩家開始探索在手機等移動設備上部署大模型,微軟此舉或許也會加速模型能力在端側的應用。