新測試基準發布，最強開源Llama 3尴尬了 - 大酷樂

今天小編分享的科學經驗：新測試基準發布，最強開源Llama 3尴尬了，歡迎閲讀。

如果試題太簡單，學霸和學渣都能考 90 分，拉不開差距……

随着 Claude 3、Llama 3 甚至之後 GPT-5 等更強模型發布，業界急需一款更難、更有區分度的基準測試。

大模型競技場背後組織 LMSYS 推出下一代基準測試Arena-Hard，引起廣泛關注。

Llama 3 的兩個指令微調版本實力到底如何，也有了最新參考。

與之前大家分數都相近的 MT Bench 相比，Arena-Hard區分度從 22.6% 提升到 87.4%，孰強孰弱一目了然。

Arena-Hard 利用競技場實時人類數據構建，與人類偏好一致率也高達 89.1%。

除了上面兩個指标都達到 SOTA 之外，還有一個額外的好處：

實時更新的測試數據包含人類新想出的、AI 在訓練階段從未見過的提示詞，減輕潛在的數據泄露。

并且新模型發布後，無需再等待一周左右時間讓人類用户參與投票，只需花費 25 美元快速運行測試管線，即可得到結果。

有網友評價，使用真實用户提示詞而不是高中考試來測試，真的很重要。

新基準測試如何運作？

簡單來説，通過大模型競技場 20 萬個用户查詢中，挑選 500 個高質量提示詞作為測試集。

首先，挑選過程中确保多樣性，也就是測試集應涵蓋廣泛的現實世界話題。

為了确保這一點，團隊采用 BERTopic 中主題建模管道，首先使用 OpenAI 的嵌入模型（text-embedding-3-small）轉換每個提示，使用 UMAP 降低維度，并使用基于層次結構的模型聚類算法 ( HDBSCAN ) 來識别聚類，最後使用 GPT-4-turbo 進行匯總。

同時确保入選的提示詞具有高質量，有七個關鍵指标來衡量：

具體性：提示詞是否要求特定的輸出？

領網域知識：提示詞是否涵蓋一個或多個特定領網域？

復雜性：提示詞是否有多層推理、組成部分或變量？

解決問題：提示詞是否直接讓 AI 展示主動解決問題的能力？

創造力：提示詞是否涉及解決問題的一定程度的創造力？

技術準确性：提示詞是否要求響應具有技術準确性？

實際應用：提示詞是否與實際應用相關？

使用 GPT-3.5-Turbo 和 GPT-4-Turbo 對每個提示進行從 0 到 7 的注釋，判斷滿足多少個條件。然後根據提示的平均得分給每個聚類評分。

高質量的問題通常與有挑戰性的話題或任務相關，比如遊戲開發或數學證明。

新基準測試準嗎？

Arena-Hard 目前還有一個弱點：使用 GPT-4 做裁判更偏好自己的輸出。官方也給出了相應提示。

可以看出，最新兩個版本的 GPT-4 分數高過 Claude 3 Opus 一大截，但在人類投票分數中差距并沒有那麼明顯。

其實關于這一點，最近已經有研究論證，前沿模型都會偏好自己的輸出。

研究團隊還發現，AI 天生就可以判斷出一段文字是不是自己寫的，經過微調後自我識别的能力還能增強，并且自我識别能力與自我偏好線性相關。

那麼使用 Claude 3 來打分會使結果產生什麼變化？LMSYS 也做了相關實驗。

首先，Claude 系列的分數确實會提高。

但令人驚訝的是，它更喜歡幾種開放模型如 Mixtral 和零一萬物 Yi，甚至對 GPT-3.5 的評分都有明顯提高。

總體而言，使用 Claude 3 打分的區分度和與人類結果的一致性都不如 GPT-4。

所以也有很多網友建議，使用多個大模型來綜合打分。

除此之外，團隊還做了更多消融實驗來驗證新基準測試的有效性。

比如在提示詞中加入 " 讓答案盡可能詳盡 "，平均輸出長度更高，分數确實會提高。

但把提示詞換成 " 喜歡閒聊 "，平均輸出長度也有提高，但分數提升就不明顯。

此外在實驗過程中還有很多有意思的發現。

比如 GPT-4 來打分非常嚴格，如果回答中有錯誤會狠狠扣分；而 Claude 3 即使識别出小錯誤也會寬大處理。

對于代碼問題，Claude 3 傾向于提供簡單結構、不依賴外部代碼庫，能幫助人類學習編程的答案；而 GPT-4-Turbo 更傾向最實用的答案，不管其教育價值如何。

另外即使設定温度為 0，GPT-4-Turbo 也可能產生略有不同的判斷。

從層次結構可視化的前 64 個聚類中也可以看出，大模型競技場用户的提問質量和多樣性确實是高。

這裏面也許就有你的貢獻。

Arena-Hard GitHub：

https://github.com/lm-sys/arena-hard

Arena-Hard HuggingFace：

https://huggingface.co/spaces/lmsys/arena-hard-browser

大模型競技場：

https://arena.lmsys.org

參考鏈接：

[ 1 ] https://x.com/lmsysorg/status/1782179997622649330

[ 2 ] https://lmsys.org/blog/2024-04-19-arena-hard/

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>