大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

o1完整思維鏈成OpenAI頭号禁忌!問多了等着封号吧

2024-09-15 简体 HK SG TW

今天小編分享的科學經驗:o1完整思維鏈成OpenAI頭号禁忌!問多了等着封号吧,歡迎閱讀。

警告!不要在 ChatGPT 裡問最新 o1 模型是怎麼思考的——

只要嘗試幾次,OpenAI 就會發郵件威脅撤銷你的使用資格。

請停止此活動,确保您使用 ChatGPT 時符合我們的使用條款。違反此條款的行為可能導致失去 OpenAI o1 訪問權限。

大模型新範式 o1 橫空出世不到 24 小時,就已經有不少用戶反饋收到這封警告郵件,引起眾人不滿。

有人反饋只要提示詞裡帶 "reasoning trace"、"show your chain of thought" 等關鍵詞就會收到警告。

甚至完全避免出現關鍵詞,使用其他手段誘導模型繞過限制都會被檢測到。

也有人聲稱自己真的被封号了,為期一周。

這些用戶都在試圖套話 o1,讓他復述出完整的内部思維過程,也就是全部原始 reasoning tokens。

目前,大家在 ChatGPT 界面通過展開按鈕能看到的,只是一份對原始思維過程的摘要。

實際上,在 o1 發布時 OpenAI 就給出了隐藏模型完整思維過程的理由。‍‍‍

總結一下:OpenAI 内部需要監測模型的思維過程,因此不能在這些原始 tokens 中加入安全限制,也就不方便讓用戶看到。

不過這個理由并不是所有人都認可。

有人指出,o1思維過程就是其他模型最好的訓練數據,所以 OpenAI 不想這些寶貴數據被别的公司扒走。

也有人認為這說明 o1 真的沒有什麼護城河,一旦思維過程暴露就很容易被别人復制。

以及 " 這是讓我們只需盲目相信 AI 的答案,不用做出任何解釋嗎?"

對于 o1 模型背後的技術原理,這次透露的相當少,有效信息幾乎只有 " 用了強化學習 "。

總之,OpenAI 是越來越不 Open 了。

o1 就是草莓,但并非 GPT-5 ‍‍‍‍‍‍‍

目前可以确定 o1 就是 OpenAI 炒作很久了的" 草莓 ",或者說是用了 " 草莓 " 所代表的方法。

但他可以算作下一代模型 GPT-5 麼,還是只是 GPT-4.X?

越來越多的人開始懷疑,它只是基于 GPT-4o 做的工程調整。

知名爆料賬号 Flowers(原 Flowers from the future)稱,OpenAI 員工内部把 o1 稱做 " 帶推理的 4o"。

并且他聲稱很多 OpenAI 員工默默點贊了這條爆料,上面的截圖也正是來自 OpenAI 員工。

但馬斯克前一陣把推特改版成除了樓主以外其他人無法看到誰點贊了什麼,所以目前還無法證實這條消息。

在 OpenAI 開發者賬号剛剛舉辦的 " 有問必答 "(Ask Me Anything)活動中,Flowers 也做了追問。

OpenAI 員工在這裡回答了很多問題,但回避了這個點贊很多排在前面的問題。

甚至奧特曼本曼剛剛又出來當謎語人,暗示 " 草莓 " 已經告一段落,下一款代号" 獵戶座 "Orion的新模型還在路上。

此前有消息稱 " 獵戶座 " 是 OpenAI 的下一代新旗艦模型,由 " 草莓 " 也就是 o1 生成的合成數據訓練。

而獵戶座正是奧特曼口中 " 冬季星座 " 的代表之一。

說回到已發布的 o1,圍繞它的另一種批評聲音是" 不符合科研規範 "。

例如沒有引用之前推理時間計算的相關工作,同時也缺乏與其他公司最先進模型的比較。

針對前一點,有人指出 OpenAI 已經不再是一個研究實驗室,應該被視為一家商業公司了。

有時他們仍會假裝自己是個研究實驗室,目的是招募想要做研究工作的人才。

不過針對後一點,既然 API 發布了,要不要與其他前沿模型比較就由不得你了,很多第三方 Benchmark 已陸續跑出結果。

在 Keras 之父舉辦的 100 萬美金AGI Prize比賽中,o1-preview 和 o1-mini 兩個版本在公開測試集上都超過了自家 GPT-4o。

但 o1-preview與隔壁 Claude 3.5-Sonnet 只是打了個平手。

在 o1 着重宣傳的代碼能力上,開源結對編程工具 aider團隊運行了測試,o1 系列也沒有取得明顯優勢。

對于整個代碼重寫任務,o1-preiview 取得 79.7 分,Claude-3.5-Sonnet 取得 75.2 分,o1 領先 4.5 分。

但對于更實用的代碼編輯任務,o1-preview 反而落後于 Claude-3.5-Sonnet,有 2.2 分的差距。

另外 aider 團隊提示,如果目前想用 o1 系列替代 Claude 編程,成本上要高很多。

與 OpenAI 有合作關系的"AI 程式員 "Devin團隊,已經提前拿到了 o1 訪問資格。‍

在他們的測試中,由 o1 系列驅動 Devin 基礎版本,與 GPT-4o 相比獲得非常大的提升。

不過相比已發布的 Devin 生產版本還是有較大差距,主要是由于 Devin 生產版本在專有數據上進行了訓練。

另外根基 Devin 團隊分享,o1 在得出正确的解決方案之前通常會回溯并考慮不同的選項,并且不太可能出現幻覺或自信地錯誤。

使用 o1-preview 時,Devin更有可能正确診斷 bug 的根本原因,而不是解決問題的症狀。

在更重視數學和邏輯推理的Livebench榜單中,o1-preview 在代碼單項落後的情況下,總分上超過 Claude-3.5-Sonnet 并拉開明顯差距。

Livebench 團隊分享這還只是初步結果,因為很多測試中還内置了 " 請一步一步地思考 " 等提示詞技巧,這并不是使用 o1 的最佳方法。

在中文大模型綜合測評基準SuperCLUE 的中文復雜任務高階推理測試中,o1-preview 的推理能力也大幅領先。

最後總結一下,使用 o1 模型還需要注意的一些地方:

成本非常高,1 百萬輸出 tokens 就要 60 美元,價格一夜回到 GPT-3 時代

隐藏的 resoning tokens 也是算在輸出 tokens 中,看不到,但是要付費‍

大多數任務最好先使用 GPT-4o,發現不夠用了再切換 o1,以節省成本。

代碼任務仍然優先使用 Claude-3.5-Sonnet

總之圍繞 OpenAI 新模型 o1,開發者社區還有很多疑問。

o1 開啟了 AI 高階推理的新範式,但它本身還不算完善,如何發揮他的最大價值還有待探索。

在此背景下,OpenAI 舉辦的 " 有問必答 " 活動,在 4 個小時内就收到上百條提問。

下面附上對整場活動内容的精選和總結。

OpenAI 員工 " 有問必答 "

首先對于這個突然發布的新模型,很多人好奇為什麼 OpenAI 給它取了 o1 這樣一個名字?

這是因為在 OpenAI 看了,o1 代表了 AI 能力的一個新的層級,因此對 " 計數器 " 進行了重置,而 o 則代表 OpenAI。

就像 o1 發布時奧特曼說的,可以進行復雜推理的 o1,是一個新範式的開始。

對于其中 preview 和 mini 兩個版本号,OpenAI 科學家也确認了網友的一些猜測——

preview 是一個臨時版本,正式版将在未來上線(實際上 preview 版本是 o1 的一個早期 checkpoint);而mini 版不保證近期之内會有更新。

配合 OpenAI 成員 Kevin Lu 之前發布的這張圖來看,就更加清晰明了了。

與 preview 相比,mini 在某些任務上表現出色,尤其是與代碼相關的任務,還可以探索更多的思維鏈,但世界知識相對少些。

對此,OpenAI 科學家趙盛佳的解釋是,mini 是一個高度專門化的模型,只關注少部分的能力,所以可以更深入。

也算是揭曉了之前奧特曼在這個問題上打的一個啞謎。

關于 o1 的運作方式,OpenAI 科學家 Noam Brown 也明确表示,并非是像部分網友認為的模型 +CoT 組成的 " 系統 ",而是一個已經被訓練得原生具備生成思維鏈能力的模型。

不過推理過程中的思維鏈會被隐藏,并且官方已經明确了沒有向用戶展示有關 token 的計劃。

對此 OpenAI 透露的為數不多的消息是,CoT 的相關 token 是總結性的,且不保證完全和推理過程匹配。

除了推理模式,在這次問答活動中還能夠得知,o1 與 GPT-4o 相比可以處理更長的文本,而且未來還會繼續增加。

表現上,在 OpenAI 内部的測試中,o1 顯現出了哲學推理能力, 可以思考諸如 " 生命是什麼?" 之類的哲學問題。

研究人員還使用 o1 創建了一個 GitHub 機器人,能夠将代碼 ping 給所有者以供審核。

當然對于一些非推理性質的任務,比如創意寫作,o1 的表現相比 GPT-4o 提升并不明顯,甚至有時還要略遜一籌。

另外綜合一些提問來看,對于網友們關心的一些未上線功能,OpenAI 表示正在或有計劃研究,但沒有明确的上線時間:

暫不支持工具調用,但函數調用、代碼解釋器都在未來計劃之中

未來 API 更新将加入結構化輸出、系統提示詞、提示詞緩存功能

微調也已在計劃中

API 用戶将可以自行設定對推理時間和 token 消耗的限制

o1 具有多模态能力,瞄準的是 MMMU 等數據集上的 SOTA,之後将實裝

性能上,OpenAI 也正在着手降低延遲和推理所需時間。

最後是人們,尤其是 API 用戶關心的價格問題,畢竟考慮到将推理過程計入輸出 token,o1 的定價還是比較高的。

OpenAI 表示" 将遵循每 1-2 年降價的趨勢 ",并且在使用量限制變得更寬松時,批量 API 定價也會上線。

網頁 /APP 端的 Plus 用戶,目前則是要受到每周 preview30 條 +mini50 條消息的限制。

不過好消息是,就在今天凌晨,由于人們對 o1 實在太熱情,導致很多人很快就把額度用完,所以OpenAI 特例把額度重置了一次。

那麼你對 o1 還有哪些疑問或期待?歡迎評論區交流。

參考鏈接:

[ 1 ] https://x.com/SmokeAwayyy/status/1834641370486915417

[ 2 ] https://x.com/flowersslop/status/1834416138400276714

[ 3 ] https://arcprize.org/blog/openai-o1-results-arc-prize

[ 4 ] https://livebench.ai

[ 5 ] https://mp.weixin.qq.com/s/XrgkD4T2XwXhGWuPkYtLMw

[ 6 ] https://x.com/OpenAIDevs/status/1834608585151594537

[ 7 ] https://x.com/btibor91/status/1834686946846597281

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們