今天小編分享的科技經驗:Reflection 70B AI 模型第三方基準測試結果不佳,歡迎閲讀。
IT 之家 9 月 11 日消息,科技媒體 The Decoder 昨日(9 月 10 日)報道,對比平台 Artificial Analysis 相關數據表明,Reflection 70B AI 模型在基準測試中的表現,實際上不及 Meta 的 LLaMA-3.1-70B。
針對 AI 模型基準測試結果不佳,Reflection 公司首席執行官馬特・舒默(Matt Shumer)表示,上傳模型權重至 Hugging Face 時遇到問題,所使用的權重是多個不同模型的混合體,而他們内部托管的模型則顯示出更佳的結果。
舒默随後向部分用户提供了獨家訪問内部模型的權限,Artificial Analysis 重做了測試,并報告結果優于公開 API,只是他們無法确認所訪問的具體是哪個模型。
Reflection 在 Hugging Face 已上傳了新的模型,不過這些模型在測試中的表現明顯遜于之前通過私有 API 提供的模型。
IT 之家查詢公開資料,有用户還發現了證據,表明 Reflection API 有時會調用 Anthropic Claude 3.5 Sonnet 以及 OpenAI。
舒默旗下公司 OthersideAI 此前已宣布計劃于本周發布一款基于 LLaMA 3.1 450B 的更大、更強大的模型。
舒默對這一即将發布的版本做出了大膽聲明,稱其不僅将成為最佳的開源模型,還将是有史以來最優秀的語言模型。
官方回應: