大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

關注o1必備GitHub倉庫,上線3天狂攬1.5k星!英偉達工程師出品,承諾持續更新

2024-09-20 简体 HK SG TW

今天小編分享的科學經驗:關注o1必備GitHub倉庫,上線3天狂攬1.5k星!英偉達工程師出品,承諾持續更新,歡迎閱讀。

關注 o1 必備的 GitHub 庫,它來了!

上線3 天狂攬1.5k 星,一躍登上 GitHub 趨勢榜!

這個庫專注于收集與 o1 相關的推理技術論文、博客和項目等資源,供大家研究讨論,并在持續更新中。

網友們對它給予高度評價:

科技大 V 說它是" 拆解草莓的逆向工程 "。

也有網友直接提出表揚:" 研究 o1,看它就夠了!"

真有這麼牛?咱們一起來看看到底怎麼個事兒!

幹貨滿滿

在這個名為Awesome-LLM-Strawberry的 GitHub 庫中,涵蓋了大量關于 o1 的信息。

量子位為大家整理了一下迄今為止發布的相關硬核内容:

關于 o1 的博客

博客:Learning to Reason with LLMs

作者:OpenAI

鏈接:https://openai.com/index/learning-to-reason-with-llms/

概述:這篇博客介紹了 OpenAI o1 的訓練方法,其中包括鏈式推理、自我批評、驗證、多步驟推理、任務分解和蒙特卡洛樹搜索等技術。

博客:OpenAI o1-mini

作者:OpenAI

鏈接:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

概述:介紹了o1 mini模型在推理成本和效率方面的改進,在保持高推理性能的同時,顯著降低了計算和運行成本。

博客:Finding GPT-4 ’ s mistakes with GPT-4

作者:OpenAI

鏈接:https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

概述:讨論了如何利用 GPT-4 模型自身來發現和修正生成的錯誤。文章中提到的 " 自我審查方法 " 通過雙重評估提高了錯誤檢測的準确性,從而讓模型輸出的内容變得更加可靠。(文章發表時,已有 OpenAI 超級對齊團隊成員離職,因此也被稱為團隊的 " 遺作 ")

博客:Summary of what we have learned during AMA hour with the OpenAI o1 team

作者:Tibor Blaho

鏈接:https://twitter-thread.com/t/1834686946846597281

:https://x.com/btibor91/status/1834686946846597281

概述:這篇博客總結了 OpenAI 團隊在 AMA(問答環節)中分享的關于 o1 模型的主要内容和特性。

其中包括:模型的推理範式以及規模和性能、輸入 token 上下文和模型能力、CoT(思維鏈)推理、API 和使用限制、定價、微調和擴展等内容。

博客:OpenAI ’ s Strawberry, LM self-talk, inference scaling laws, and spending more on inference

作者:Nathan Lambert

鏈接:https://www.interconnects.ai/p/openai-strawberry-and-inference-scaling-laws

概述:文章探讨了 OpenAI 的新活 "Strawberry" 以及推理擴展定律,強調了推理計算在提升 AI 能力方面的重要性。而相較于單純擴大模型規模,作者認為增加推理計算的投入能更有效地提高模型性能。(具有前瞻性的一篇博客,文章發布的時候 o1 還沒發布)

博客:Reverse engineering OpenAI ’ s o1

作者:Nathan Lambert

鏈接:https://www.interconnects.ai/p/reverse-engineering-openai-o1

概述:文章詳細講了 OpenAI 的 o1 模型,重點在于它的推理能力。o1 通過生成復雜的思維鏈來處理復雜任務,比以前的模型表現更出色。

還讨論了 o1 的設計和訓練細節,特别是它如何通過優化數據處理和算法來提高推理效率。同時指出,相比單純增加模型規模,提升推理計算投入對提升模型性能更有效。

OpenAI o1 貢獻者參與撰寫的論文

論文:Training Verifiers to Solve Math Word Problems

作者:Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman

團隊:OpenAI

鏈接:https://arxiv.org/abs/2110.14168

概述:發布于 2021 年 10 月,文中指出雖然當前的先進語言模型在很多任務上表現很強,但它們在解決復雜的數學題時仍然遇到困難。為了解決這個問題,作者創建了一個叫 GSM8K 的數據集,其中包含 8500 個不同的小學數學題。

研究發現,即使是大規模的 Transformer 模型在這些題目上也表現不佳。為了提升表現,作者建議使用一個驗證器來檢查模型答案的準确性。

具體做法是讓模型生成多個答案,然後選擇驗證器評分最高的答案。而這種方法顯著提高了模型在 GSM8K 數據集上的表現,比傳統的調整方法效果更好。

論文:Generative Language Modeling for Automated Theorem Proving

作者:Stanislas Polu, Ilya Sutskever

團隊:OpenAI

鏈接:https://arxiv.org/abs/2009.03393

概述:發布于 2020 年 9 月,探讨了基于 Transformer 的語言模型如何在自動定理證明中發揮作用。

研究的核心問題是,自動定理證明器在生成原創數學術語方面比不上人類,而這可能通過語言模型的生成能力得到解決。

作者介紹了一種叫做 GPT-f 的自動證明工具,用于 Metamath 形式化語言,并分析了它的效果。GPT-f 成功發現了一些新短證明,這些證明被 Metamath 主要庫接受,這是深度學習系統首次為形式數學社區提供并被采納的證明。

論文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

作者:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

團隊:Google Research, Brain Team(谷歌大腦 )

鏈接:https://arxiv.org/pdf/2201.11903

概述:發布于 2022 年 1 月,文章讨論了如何通過生成一系列中間推理步驟(思維鏈)來大幅提升大型語言模型的復雜推理能力。

作者提出了一種叫做 " 思維鏈提示 " 的方法,具體做法是在提示中給出一些思維鏈的示例,幫助模型進行更深入的推理。最終實驗結果顯示,它在三個大型語言模型上都顯著提高了它們在算術、常識和符号推理任務中的表現。

論文:Let ’ s Verify Step by Step

作者:Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe

團隊:OpenAI

鏈接:https://arxiv.org/abs/2305.20050

概述:發布于 2023 年 5 月,文章讨論了大型語言模型在復雜多步推理任務中的表現。

作者比較了兩種訓練方法:一種只關注最終結果,另一種關注每一步推理。結果顯示,關注每一步推理的方法更有效,能在 MATH 數據集上提高到 78% 的成功率。

文中還強調了主動學習在提升訓練效果中的重要性,并發布了一個包含 80 萬個步驟級反饋的 PRM800K 數據集,用于訓練最佳模型。

論文:LLM Critics Help Catch LLM Bugs

作者:Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike

團隊:OpenAI

鏈接:https://arxiv.org/abs/2407.00215

概述:發布于 2024 年 6 月,文中介紹了用 " 批評者 "(CriticGPT)模型來提升機器學習模型輸出的評估。

這些批評者模型能更有效地發現代碼中的錯誤,甚至能找到人類可能忽略的問題。盡管這些模型有時會出錯,但與人類結合使用可以減少誤導,同時提高錯誤檢測的效率。

論文:Self-critiquing models for assisting human evaluators

作者:William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, Jan Leike

團隊:OpenAI

鏈接:https://arxiv.org/pdf/2206.05802

概述:發布于 2022 年 6 月,文中介紹了一種方法,通過微調大型語言模型,讓它們生成批評性評論,從而幫助找出摘要中的問題。

研究發現,這些評論可以有效識别摘要中的錯誤,包括有意誤導的信息。大模型在生成有用評論和自我改進方面表現更好。

同時論文還提出了一個框架來評估模型的批評、生成和辨别能力,并指出即使是大型模型也可能有遺漏的知識。研究展示了如何用 AI 輔助人類改進機器學習系統,并公開了相關數據和樣本。

論文:Scalable Online Planning via Reinforcement Learning Fine-Tuning

作者:Arnaud Fickinger, Hengyuan Hu, Brandon Amos, Stuart Russell, Noam Brown

團隊:Facebook AI

鏈接:https://arxiv.org/pdf/2109.15316

概述:文章介紹了一種新方法來改進圖神經網絡(GNN)的訓練,特别是針對 " 圖卷積 " 操作中的效率問題。

作者提出了一種名為 "FastGCN" 的算法,旨在提高圖神經網絡的計算速度和縮放能力。通過在訓練過程中進行近似和優化,這種方法能夠處理更大規模的圖數據,從而在圖數據分析任務中取得更好的性能。

除此之外,作者還按照時間順序梳理了一些可能與 o1 相關的其他相關論文:

2024 年發布:

2023 年發布:

2022 年發布:

2021 年發布:

2017 年發布:

關于作者

Awesome-LLM-Strawberry的作者是 ID 叫做hijkzzz的中國小哥。

目前在英偉達任深度學習工程師。

他是OpenRLHF 的第一作者,在英偉達期間開發 TensorRT-LLM 的新模型和算法,還參與了 NeMo 的模型訓練。

參考鏈接:

[ 1 ] https://github.com/hijkzzz/Awesome-LLM-Strawberry

[ 2 ] https://github.com/hijkzzz?tab=overview&from=2024-09-01&to=2024-09-18

[ 3 ] https://x.com/IntuitMachine/status/1835476301291139395

[ 4 ] https://x.com/burny_tech/status/1836112182804910224

—  完  —

量子位年度 AI 主題策劃正在征集中!

歡迎投稿專題  一千零一個 AI 應用,365 行 AI 落地方案

或與我們分享你在尋找的 AI 產品,或發現的AI 新動向

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們