手機能跑！微軟小模型擊敗Llama 2，96塊A100 GPU訓練14天，參數規模僅27億

今天小編分享的科技經驗：手機能跑！微軟小模型擊敗Llama 2，96塊A100 GPU訓練14天，參數規模僅27億，歡迎閲讀。

智東西（公眾号：zhidxcom）

作者 | 程茜

編輯 | 李水青

智東西 12 月 13 日報道，昨日晚間，微軟又亮出了小模型大招！

微軟發布了 27 億參數規模的小語言模型 Phi-2，經研究人員測試，Phi-2 在參數規模小于 130 億的模型中展示了最先進性能。

從性能表現看，Phi-2 在 Big Bench Hard（BBH）、常識推理、語言理解、數學和編碼基準測試中，其平均性能得分已經超過 70 億、130 億參數規模的 Mistral 和 Llama 2，在部分基準測試中超過谷歌的 Gemini Nano 2。

Phi-2 還有一大優勢是，因為參數規模足夠小，其可以在筆記型電腦、手機等移動設備上運行。

過去幾個月間，微軟研究院的機器學習基礎團隊陸續發布了小型語言模型（SLM）Phi 系列。

其中，第一個模型為 13 億參數規模的 Phi-1，官方博客稱，Phi-1 在 SLM 中的 Python 編碼方面表現最好，在 HumanEval 和 MBPP 基準測試上尤甚。第二個模型為 13 億參數規模的 Phi-1.5，這個模型的重點為常識推理和語言理解能力。

現在微軟發布的 Phi-2 能為研究人員探索機器可解釋性、安全性改進或對各種任務的微調實驗上提供幫助，目前，Phi-2 已經從 Azure AI Studio 模型目錄中開放給研究人員。

一、96 塊 A100 GPU 訓練 14 天，參數規模僅 27 億

一些大模型的參數規模達到數千億的量級，使得其湧現出眾多新興能力，那麼，是否可以通過改變訓練策略等方式讓更小的參數實現這些能力？微軟的小型語言模型（SLM）系列或許是這一問題的答案。

Phi-2 是一個基于 Transformer 架構的模型，具有下一個單詞預測目标，在用于 NLP 和編碼的合成數據集和 Web 數據集的混合上多次傳遞的 1.4T tokens 上進行訓練。

Phi-2 在96 個 A100 GPU 上訓練了 14 天，作為一個基礎模型，其沒有通過人類反饋強化學習（RLHF）進行對齊，也沒有進行指令微調。

盡管如此，與經過調整的現有開源模型 Llama 2-7B 相比，研究人員觀察到在避免生成有攻擊性、有害和内容有偏差方面 Phi-2 的表現也不差。

研究人員根據 ToxiGen 的 13 個人口統計數據計算的安全評分，他們選擇 6541 個句子的子集，并根據困惑度和句子 " 毒性 " 進行 0 到 1 之間的評分。分數高就説明，模型產生有攻擊性、有害句子的可能性較小。

▲ Llama 2 與 Phi-2 在生成有攻擊性、有害和内容有偏差方面性能比較（圖源：微軟官方博客）

微軟使用 Phi-2 打破了傳統語言模型縮放定律，其中有兩個關鍵環節：

第一是訓練數據的質量對模型的性能至關重要。微軟的模型訓練數據包含專門創建的合成數據集，用于教授模型常識推理，還包括科學、心理等領網域的常識。

研究人員還挑選了一些網絡數據進一步擴充訓練語料庫，并基于内容的價值和質量進行了數據過濾。

此外，從 13 億參數規模的 Phi-1.5 開始，微軟的研究人員實現了規模化的知識轉移，将 Phi-1.5 的知識嵌入到 27 億參數的 Phi-2 中。這種方法不僅加速了訓練收斂，而且提高了 Phi-2 的基準分數。

▲ Phi-2 和 Phi-1.5 比較（圖源：微軟官方博客）

二、基準測試擊敗 Llama 2、Mistral、Gemini Nano 2

微軟總結了 Phi-2 在學術基準上與主流語言模型的性能表現對比。

其基準測試涵蓋 Big Bench Hard（BBH 數據集）以及 PIQA、WinoGrande、ARC easy、Challenge、SIQA 的常識推理、HellaSwag、OpenBookQA、MMLU、SQuADv2 的語言理解數據集，GSM8k 數學數據集和 HumanEval、MBPP 的編碼數據集等。

27 億參數規模的 Phi-2，在 BBH、常識推理、語言理解、數學、編碼各項基準測評上都超過了 70 億、130 億參數規模的 Mistral 和 Llama 2。

相比于參數規模差距在 25 倍的 700 億參數 Llama 2，Phi-2 在編碼、數學等多步推理任務上表現更好。

▲ Llama 2、Mistral、Phi-2 性能比較（圖源：微軟官方博客）

此外，微軟還比較了 Phi-2 與谷歌最近發布的 Gemini Nano 2，谷歌發布的模型參數規模為 32.5 億，Phi-2 的性能表現部分優于 Gemini Nano 2。

▲ Phi-2、Gemini Nano 2 性能比較（圖源：微軟官方博客）

考慮到一些公共基準測試的數據可能會泄漏到訓練數據中，微軟對第一個模型 Phi-1 進行了廣泛的淨化研究以排除這種可能性。

基于判斷語言模型的最佳方法是在具體用例上對其進行測試的考量，研究人員使用了多個微軟内部專有數據集和任務評估了 Phi-2，并再次将其與 Mistral 和 Llama 2 進行比較，其結果為，平均而言 Phi 2 優于 Mistral-7B，後者優于 70 億、130 億、730 億參數規模的 Llama-2 模型。

除了基準測試外，研究人員還測試了社區内的一些常用提示，他們觀察到的表現也與基準測試的結果預期一致。

其中，研究人員測試了用于評估谷歌 Gemini Ultra 模型在解決物理問題方面能力的問題。