大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

開源大模型新王幹翻GPT-4o,新技術可糾正自己幻覺,數學99.2分刷爆測試集

2024-09-06 简体 HK SG TW

今天小編分享的科學經驗:開源大模型新王幹翻GPT-4o,新技術可糾正自己幻覺,數學99.2分刷爆測試集,歡迎閱讀。

開源大模型王座突然易主,居然來自一家小創業團隊,瞬間引爆業界。

新模型名為Reflection 70B,使用一種全新訓練技術,讓 AI 學會在推理過程中糾正自己的錯誤和幻覺。

比如最近流行的數 r 測試中,一開始它犯了和大多數模型一樣的錯誤,但主動在< 反思 > 标籤中糾正了自己。

在官方評測中,70B 模型全面超越最強開源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是數學基準 GSM8K 上直接刷爆,得分 99.2%。

這個結果也讓 OpenAI 科學家、德撲 AI 之父 Noam Brown 激情開麥:

GSM8K 得分 99%!是不是可以正式淘汰這個基準了?

模型剛剛上線網友就把試玩擠爆了,對此 Meta 還主動支援了更多算力。

在網友測試中,Reflection 70B 能回答對 GSM8K 數據集中本身答案錯誤的問題:

我向模型提供了 GSM8K 中存在的 5 個 "ground_truth" 本身就不正确的問題。

模型沒有重復數據集中的錯誤答案,而是全部回答對了,這很令人印象深刻,表明那 99.2% 的準确率并非來自于記憶測試集!

數各種 r 都不在話下,連生造詞"drirrrngrrrrrnnn" 中有幾個 r 也能被正确數對。

網友紛紛對小團隊做出的開源超越頂流閉源感到驚訝,現在最強開源模型可以在本地運行了。

關鍵 70B 還只是個開始,官方表示下周還會發布更大的Reflection 405B。

預計 405B 性能将大幅優于 Sonnet 和 GPT-4o。

Reflection 70B 權重已公開,API 訪問将于今天晚些時候由 Hyperbolic Labs 提供。

模型能自我反思糾正錯誤

目前關于 Reflection 70B 的更多細節如下。

Reflection 70B 能力提升的關鍵,是采用了一種名為Reflection-Tuning的訓練方法,它能夠讓模型反思自己生成的文本,在最終确定回應前檢測并糾正自身推理中的錯誤。

訓練中的數據來自使用 GlaiveAI 平台生成的合成數據。

Reflection 70B 基于 Llama 3.1 70B Instruct,可以使用與其它 Llama 模型相同的代碼、pipeline 等從 Reflection Llama-3.1 70B 進行采樣。

它甚至使用了标準的 Llama 3.1 聊天格式。

不過,Reflection 70B 引入了一些特殊 tokens,結構化輸出過程。

如下面這個例子所展示的,規劃過程分為一個獨立的步驟,這樣做可以提高 CoT 效果,并保持輸出精煉:

模型将從在 <thinking> 和 </thinking>标籤内輸出推理開始,一旦對其推理感到滿意,就會在 <output> 和 </output> 标籤内輸出最終答案。

所以它能夠将其内部思考和推理與最終答案分離。

在 <thinking> 部分,模型可能會輸出一個或多個<reflection> 标籤,這表明模型發現了其推理中的錯誤,并将在提供最終答案之前嘗試糾正該錯誤。

系統提示如下:

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside   tags, and then provide your final response inside   tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside   tags.

(你是一個世界級人工智能系統,能夠進行復雜的推理和反思。在标籤内對查詢進行推理,然後在标籤内提供你的最終回應。如果你發現自己在任何時候推理出錯,請在标籤内糾正自己。)

此外值得一提的是,基準測試中,所有基準都已通過 LMSys 的 LLM Decontaminator 檢查污染,隔離了 <output> 部分,并單獨對這一部分進行測試。

使用 Reflection 70B 的時候,官方還分享了小 tips:

初步建議參數 temperature 為 .7 , top_p 為 .95

為提高準确性,最好附加 "Think carefully." 在 Prompt 末尾

官方還表示,下周會發布一份報告,詳細介紹模型訓練過程和發現。

Agent 創業團隊打造

Reflection 70B 的背後是一支小團隊,由 HyperWriteAI 的 CEO Mutt Shumer帶領。

領英顯示,Mutt Shumer 是一位連續創業者,畢業于美國錫拉丘茲大學,現任 OthersideAI 的聯合創始人兼 CEO。

OthersideAI 是一家 AI 應用公司,致力于通過大規模 AI 系統開發全球最先進的自動補全工具,也是 HyperWrite 的幕後公司。

HyperWrite 是一個浏覽器操作 agent,可以像人一樣操作谷歌浏覽器來完成一系列任務,比如訂披薩:

和 gpt-llm-trainer 一樣,你只需要用文字描述目标,它就會一邊列步驟,一邊執行。

剛推出時号稱 " 比 AutoGPT 強 "。

HyperWrite 還可以在谷歌擴展程式中安裝。

另外,Mutt Shumer 高中時期就創立了 Visos,致力于開發用于醫療用途的下一代虛拟現實軟體。

還創立了 FURI,這是一家旨在通過創造高性能產品并以公平的價格銷售它們來颠覆體育用品行業的公司。

雖然有 Meta 支持,但目前打開試玩,還是:暫時無法訪問。

感興趣的童鞋可以先碼住了~

https://reflection-playground-production.up.railway.app/  

參考鏈接:

[ 1 ] https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

[ 2 ] https://x.com/mattshumer_/status/1831767014341538166

[ 3 ] https://x.com/polynoamial/status/1831798985528635806

[ 4 ] https://x.com/degeneratoor/status/1831809610451448196

[ 5 ] https://x.com/kimmonismus/status/1831772661296345333

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們