今天小編分享的科技經驗:模型大亂鬥,小羊駝團隊推出大模型競技平台Chatbot Arena,歡迎閱讀。
品玩 6 月 8 日訊,由伯克利大學主導一個團隊 LMSYS Org 近日發布了一個針對大語言模型的基準平台 Chatbot Arena。
據悉,該平台采用匿名、随機的方式進行對抗評測,評測方式基于國際象棋等競技遊戲中廣泛使用的 Elo rating system。排名通過用戶投票產生,系統每次會随機選擇兩個不同的大模型機器人和用戶聊天,并讓用戶在匿名的情況下判定哪款大模型產品的表現更好一些。 Elo rating system 會根據用戶的選擇最後判定大模型產品的積分,并以排行榜的形式出現在首頁中。
目前 OpenAI 的 ChatGPT-4 排名第一,之後是 Anthropic 的 claude,同樣來自 Anthropic 的 claude Instant 排名第三。
LMSYS Org 是一個松散的研究組織,由加州大學伯克利分享額學生團隊組建,曾推出過大語言模型小羊駝。