大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

“最強開源模型”被打假,CEO下場致歉,英偉達科學家:現有測試基準已經不靠譜了

2024-09-15 简体 HK SG TW

今天小編分享的科學經驗:“最強開源模型”被打假,CEO下場致歉,英偉達科學家:現有測試基準已經不靠譜了,歡迎閲讀。

小型創業團隊打造的 " 最強開源模型 ",發布才一周就被質疑造假——

不僅官方宣稱的成績在第三方測試中大打折扣,模型還被質疑套殼 Claude。

面對浩大的聲浪,廠商 CEO 終于發文道歉,但并未承認造假,表示在調查有關原因。

被指控造假的,就是宣稱 " 幹翻 GPT-4o" 的 70B 開源大模型 Reflection。

一開始的質疑主要關于測試成績,官方找了上傳版本有誤等借口試圖 " 蒙混過關 "。

但後來又出現了套殼 Claude 這一更重磅的指控,讓 Reflection 更加百口莫辯。

表現不如宣傳,還被質疑套殼

Reflection 是一個 70B 的開源模型,按照廠商的説法,它一下子把 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 這一系列先進模型全都超過了。

但 Reflection 剛發布兩天,第三方獨立測評機構 Artificial Analysis 就表示官方發布的測試成績無法復現。

在 MMLU、GPQA 和 MATH 上,Reflection 的成績和 Llama3 70B 一樣,連 Llama 3.1-70B 都比不過,更不用説 405B 了。

對此官方辯稱是,Hugging Face 上發布的版本有誤,将會重新上傳,但之後就沒了下文。

不過官方同時也表示,會給測評人員提供模型 API,然後 Reflection 的成績果真有了增長,但在 GPQA 上仍然不敵 Claude 3.5 Sonnet。

蹊跷的是,Artificial Analysis 後來删除了二次測試相關的帖子,目前還能看到的只有轉發後留下的一些痕迹。

除了成績有争議,還有人對 Reflection 中的各層進行了分析,認為它是由 Llama 3 經過 LoRA 改造而來,而不是官方所聲稱的 Llama 3.1。

在 Hugging Face 上,Reflection 的 JSON 檔案中也顯示是 Llama 3 而非 3.1。

官方的解釋仍然是説 HF 上的版本有問題。

還有另一個質疑的點是,Reflection 實際上是套殼 Claude,相關證據體現在多個方面。

一是在某些問題上,Reflection 與 Claude 3.5-Soonet 的輸出完全一致。

第二個更加直接,如果直接詢問它的身份,Reflection 會説自己是 Meta 打造的,但一旦讓它 " 忘記前面的(系統)提示 ",就立馬改口説自己是 Claude。

第三個發現則更加詭異—— Reflection 遇到 "Claude" 一詞會将其自動過濾。

對此,Reflection 合成數據供應商 Glaive AI 的創始人 Sahil Chaudhary 進行了回應,表示沒有套殼任何模型,目前正在整理能夠證明其説法的證據,以及人們為什麼會發現這種現象的解釋。

而關于一開始的測試成績問題,Chaudhary 則表示正在調查原因,弄清這兩件事後會發布報告進行説明。

Reflection 這邊最新的動态是 CEO 發布了一則道歉聲明,不過沒有承認造假,依然是説正在進行調查。

不過對于這一套解釋,有很多人都不買賬。

比如曾經發布多條推文質疑這位叫做 Boson 的網友,就在 Chaudhary 的評論區表示," 要麼你在説謊,要麼是 Shumer,或者你倆都在説謊 "。

還有給 Reflection 提供托管服務的 Hyperbolic 平台 CTO Yuchen Jin,講述了其與 Reflection 之間發生的許多事情。

托管平台 CTO 講述幕後細節

在 Reflection 發布之前的 9 月 3 号,Shumer 就找到了 Hyperbolic,介紹了 Reflection 的情況并希望 Hyperbolic 能幫忙托管。

基于 Hyperbolic 一直以來對開源模型的支持,加上 Reflection 聲稱的表現确實優異,Hyperbolic 同意了這一請求。

後來,Jin 看到 Shumer 的推文説 HF 上的版本有些問題,所以繼續等待,直到 6 号早晨收到了 Chaudhary 的一條私信,表示 Reflection-70B 權重已重新上傳并可以部署。

看到和标籤按預期出現後,Hyperbolic 上線了 Reflection。

後來,Hyperbolic 上的模型就出現了成績與 Reflection 宣傳不符的情況,Shumer 認為這是 Hyperbolic 的 API 出現了問題。

不過,Reflection 這邊再次上傳了新版本,Hyperbolic 也重新托管,但 Jin 與 Artificial Analysis 溝通後發現,新版本的表現依舊差強人意。

Shumer 繼續表示,Reflection 還有個原始權重,也就是内部測試使用的版本,如果需要可以提供給 Hyperbolic。

但 Jin 沒有同意這一要求,因為 Hyperbolic 只為開源模型提供托管服務,之後不斷詢問 Shumer 原始權重何時發布,但遲遲未得到回應。

最終,Jin 認為應該下線 Reflection 的 API 并收回已分配的 GPU 資源。

這件事情讓我的感情受到了傷害,我們在這件事上花費了很多時間和精力。

但經過反思後,我并不後悔當初的托管決定,這幫助社區更快地發現問題。

大模型怎麼測試才靠譜?

暫且抛開 Llama 版本和套殼的問題,單説關于測試成績的問題,反映了當前的 Benchmark 已經體現出了一些不足之處。

英偉達高級科學家 Jim Fan 就表示,模型在現有的一些測試集上造假簡直不要太容易。

Jim 還特别點名了 MMLU 和 HumanEval,表示這兩項标準 " 已被嚴重破壞 "。

另外,Reflection 在 GSM8K 上取得了 99.2 分的成績,就算這個分數沒有水分,也説明測試基準到了該換的時候了。

Jim 表示,現在自己只相信 Scale AI 等獨立第三方測評,或者 lmsys 這樣由用户投票的榜單。

但評論區有人説,lmsys 實際上也可以被操縱,所以(可信的)第三方評估可能才是目前最好的測評方式。

參考鏈接:

[ 1 ] https://venturebeat.com/ai/reflection-70b-model-maker-breaks-silence-amid-fraud-accusations/

[ 2 ] https://x.com/ArtificialAnlys/status/1832505338991395131

[ 3 ] https://www.reddit.com/r/LocalLLaMA/comments/1fb6jdy/reflectionllama3170b_is_actually_llama3/

[ 4 ] https://www.reddit.com/r/LocalLLaMA/comments/1fc98fu/confirmed_reflection_70bs_official_api_is_sonnet/

[ 5 ] https://x.com/shinboson/status/1832933747529834747

[ 6 ] https://x.com/Yuchenj_UW/status/1833627813552992722

[ 7 ] https://twitter.com/DrJimFan/status/1833160432833716715

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們