今天小編分享的科學經驗:Llama-2首個全方位評測,國内外開源模型大比拼,歡迎閲讀。
進入 2023 年 7 月,大語言模型(LLM)的發展進入了新階段,開源成為一個火熱的主題。
7 月 6 日,上海人工智能實驗室與商湯科技等聯合發布了書生 · 浦語開源體系(https://github.com/InternLM),不僅開源了書生 · 浦語的輕量版本(InternLM-7B),還率先開源了從數據、訓練到評測的全鏈條工具體系,并提供完全免費的商用許可;
7 月 14 日,智譜科技開放 ChatGLM2-6B 免費商用;
7 月 19 日,Meta 開源了性能更強的 Llama-2,也提供了更加寬松的商用許可。
面對語言模型的新一波開源浪潮,圖靈獎得主 Yann Lecun 在推特上評價:
This is going to change the landscape of the LLM market.
可是,開源模型的表現是否可以當得起業界的熱切期待?
我們在拿到 Llama-2 的系列開源模型後,通過 OpenCompass 對它進行了全方位的評測(https://opencompass.org.cn)。
Llama-2 有多強
Llama-2 相比 Llama-1 有不少技術層面的改進,從而帶來了模型性能、推理效率以及安全性等方面的有效提升。具體而言,重要的改進有以下幾點:
模型架構上使用 Group-Query-Attention ( GQA ) 來提高模型推理效率,語境長度從 2K 增加一倍到 4K。
預訓練語料從 1.4T tokens 增加到 2T tokens。
在監督微調(SFT)階段更加注重數據集質量,使用更少但質量更高的 SFT 數據相比使用百萬量級的公開 SFT 數據,效果顯著提升。
引入了三項安全訓練技術 Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提升模型的安全性。
相比前代性能大增,仍難媲美 ChatGPT
那麼,Llama-2 的整體能力究竟如何呢?
雖然在官方技術報告中已經展示了在 20 個左右數據集上的測試結果,但評價能力維度仍然有限,對比的模型也還不夠全面。
這裏我們借助開源評測工具 OpenCompass,對 Llama-2 發布的各個模型在40 多個評測集上進行了全方位的評測,從學科、語言、知識、理解、推理五大維度綜合衡量大模型的能力。
結果可以總結為以下的雷達圖:
下表列出 Llama、Llama-2、以及 ChatGPT 在幾個有代表性評測集上的表現:
更全面和詳細的評測結果數字請參看 https://opencompass.org.cn。
相比上代模型全面提升:
從綜合能力角度,Llama-2-70B(綠色)相比于 Llama-1-65B(紫色)更勝一籌,在語言、知識、推理、理解、學科等各個能力維度相比 Llama-1 都有明顯提升。比如綜合考試集 MMLU 上從 63.71 提升到 69.75,GSM8K 上從 54.51 提升到 63.46。
對話和基座模型基本持平:
經過微調和對齊的模型 Llama-2-70B-Chat(黃色)相比基座模型 Llama-2-70B(綠色),綜合能力基本持平,在語言、推理和理解上相比基座有性能提升,在學科綜合能力和知識能力上略有下降。比如翻譯評測集 Flores 和代碼評測集 HumanEval 上,Chat 模型分别有超過 40% 和 20% 的相對提升,而在 MMLU 和 TrivialQA 上則有大約 10% 的相對降低。
離 ChatGPT 仍有較大差距:
相比 ChatGPT-0613(藍色),Llama-2-70B-Chat(黃色)仍需繼續追趕,尤其在推理能力、理解能力、和學科綜合能力上差距還比較明顯。其中數學評測集 MATH 和代碼評測集 HumanEval 的差距都超過了一倍。
中文能力短板明顯
在 Llama 的訓練語料中,中文占比較小,微調階段也沒有針對中文進行調優,所以當前 Llama-2-Chat 在中文問題上仍顯不足。
一個典型的表現就是給定中文問題時,模型還是會以英文回答。
為了對 Llama-2 的中英文能力有更深入的理解,我們選取了 OpenCompass 中的中英文數據集進行分别分析。
結果顯示:
Llama-2 在英語語言能力、知識水平和理解能力上已經較為接近 ChatGPT。
Llama-2 在中文能力上全方位遜色于 ChatGPT。這一結果表明,Llama-2 本身作為基座模型直接支持中文應用并不是一個特别優秀的選擇。
推理能力上,不管中英文,Llama-2 距離 ChatGPT 仍然存在較大差距。由此可見,對于大模型來説,推理能力提升的難度比基礎語言能力提升的難度要高得多。
安全對齊讓模型過度謹慎
Llama-2 的一大特色是它在訓練過程中采用了比較完善的安全對齊方案,在價值對齊和安全性上有較大提升。
但在測試中我們也發現,Llama-2 的安全性和模型能力的平衡沒有做得特别好,模型非常謹小慎微,對于很多常見問題都拒絕回復。
國内模型不落下風
近幾個月,國内大模型發展迅速,多個企業和科研機構都發布了各自的大模型,其中不乏千億參數的大模型。
那麼國内大模型和 Llama-2 相比,究竟表現如何呢?很多朋友都關心這個問題。
重量級模型的對比
國内機構發布的 70B 或者更高量級的模型普遍尚未開源,很多模型只通過内測 API 提供有限服務,因此我們還很難獲得對很多國產模型的全量評測數據。
在 OpenCompass 上,由上海人工智能實驗室和商湯科技聯合多所高校發布的千億參數書生 · 浦語模型(InternLM-104B)已經有了全面的評測結果。
基于這個結果,我們比較了書生 · 浦語和ChatGPT與Llama-2的性能:
在重量級模型的對比中,書生 · 浦語表現優秀,在大部分主流評測集上領先于 Llama-2 以及 ChatGPT。具體而言,在 43 個評測集中,InternLM-104B 在 34 個評測集中超越 ChatGPT,在 41 個評測集上超越 Llama-2-70B。
中文考試大幅領先:
在中文考試評測集 CEval 和高考評測集 GAOKAO-Bench 上,InternLM-104B 都大幅超過 Llama2-70B。
語言能力略有優勢:
在中英文的基礎語言任務上,包括字詞理解,成語習語,翻譯等評測集上,InternLM-104B 都有優勢,其中中文評測集上差距更大。
閲讀理解 " 書生 " 名副其實:
在中英文的各類閲讀理解評測集上,InternLM-104B 均表現出明顯的優勢,從文本段中總結和理解關鍵信息的能力更勝一籌。
推理能力技高一籌:
在常識推理、數學推理、綜合推理的各種數據集上,InternLM-104B 都有比較穩定的發揮,相比 Llama2-70B 有一定優勢。
知識問答平分秋色:
在 BoolQ,CommonSenseQA,TrivialQA,NaturalQuestion 等知識問答評測集上,兩個模型表現相當,可見知識水平沒有明顯差異。
代碼能力互有勝負:
InternLM-104B 和 Llama2-70B 的代碼能力不相上下,HumanEval 和 MBPP 兩個數據集上互有勝負。
輕量級模型的對比
重量級賽道上你追我趕,在 7B 量級的輕量級賽道上,開源模型的競争也十分活躍。
在眾多國内開源模型之中,百川智能發布的Baichuan-7B、清華大學和智譜 AI 發布的ChatGLM2-6B、上海人工智能實驗室發布的InternLM-7B等優秀模型廣受業界關注。
我們把這些國内模型和 Llama-2-7B 進行了全方位評測對比:
下表列出了這幾個 7B 量級模型在幾個有代表性評測集上的表現:
結果顯示:Llama-2 在知識能力上有明顯優勢。
但在學科、語言、推理和理解能力上,InternLM 和 ChatGLM2 都已經超越了 Llama-2,而且 InternLM 的領先優勢十分明顯。
免費商用形成星火之勢
幾個月前 Llama 的開源引爆了社區,讓眾多開發者和研究者受益匪淺,衍生出整個羊駝家族,但遺憾的是其協定限制商用,将企業拒之門外。
7 月 6 日,世界人工智能大會上,書生浦語開源體系正式發布,開源了 InternLM-7B 并提供免費商用許可。
之後,ChatGLM2-6B 和 Llama2 等開源模型相繼推進免費商用,順應了發展潮流和社區呼聲。
相信開源社區的星星之火将對產業形成燎原之勢,進一步降低大模型落地應用的門檻。
* 本文系量子位獲授權刊載,觀點僅為作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和產品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>