今天小編分享的科學經驗:o1完整思維鏈成OpenAI頭号禁忌!問多了等着封号吧,歡迎閱讀。
警告!不要在 ChatGPT 裡問最新 o1 模型是怎麼思考的——
只要嘗試幾次,OpenAI 就會發郵件威脅撤銷你的使用資格。
請停止此活動,确保您使用 ChatGPT 時符合我們的使用條款。違反此條款的行為可能導致失去 OpenAI o1 訪問權限。
大模型新範式 o1 橫空出世不到 24 小時,就已經有不少用戶反饋收到這封警告郵件,引起眾人不滿。
有人反饋只要提示詞裡帶 "reasoning trace"、"show your chain of thought" 等關鍵詞就會收到警告。
甚至完全避免出現關鍵詞,使用其他手段誘導模型繞過限制都會被檢測到。
也有人聲稱自己真的被封号了,為期一周。
這些用戶都在試圖套話 o1,讓他復述出完整的内部思維過程,也就是全部原始 reasoning tokens。
目前,大家在 ChatGPT 界面通過展開按鈕能看到的,只是一份對原始思維過程的摘要。
實際上,在 o1 發布時 OpenAI 就給出了隐藏模型完整思維過程的理由。
總結一下:OpenAI 内部需要監測模型的思維過程,因此不能在這些原始 tokens 中加入安全限制,也就不方便讓用戶看到。
不過這個理由并不是所有人都認可。
有人指出,o1思維過程就是其他模型最好的訓練數據,所以 OpenAI 不想這些寶貴數據被别的公司扒走。
也有人認為這說明 o1 真的沒有什麼護城河,一旦思維過程暴露就很容易被别人復制。
以及 " 這是讓我們只需盲目相信 AI 的答案,不用做出任何解釋嗎?"
對于 o1 模型背後的技術原理,這次透露的相當少,有效信息幾乎只有 " 用了強化學習 "。
總之,OpenAI 是越來越不 Open 了。
o1 就是草莓,但并非 GPT-5
目前可以确定 o1 就是 OpenAI 炒作很久了的" 草莓 ",或者說是用了 " 草莓 " 所代表的方法。
但他可以算作下一代模型 GPT-5 麼,還是只是 GPT-4.X?
越來越多的人開始懷疑,它只是基于 GPT-4o 做的工程調整。
知名爆料賬号 Flowers(原 Flowers from the future)稱,OpenAI 員工内部把 o1 稱做 " 帶推理的 4o"。
并且他聲稱很多 OpenAI 員工默默點贊了這條爆料,上面的截圖也正是來自 OpenAI 員工。
但馬斯克前一陣把推特改版成除了樓主以外其他人無法看到誰點贊了什麼,所以目前還無法證實這條消息。
在 OpenAI 開發者賬号剛剛舉辦的 " 有問必答 "(Ask Me Anything)活動中,Flowers 也做了追問。
OpenAI 員工在這裡回答了很多問題,但回避了這個點贊很多排在前面的問題。
甚至奧特曼本曼剛剛又出來當謎語人,暗示 " 草莓 " 已經告一段落,下一款代号" 獵戶座 "Orion的新模型還在路上。
此前有消息稱 " 獵戶座 " 是 OpenAI 的下一代新旗艦模型,由 " 草莓 " 也就是 o1 生成的合成數據訓練。
而獵戶座正是奧特曼口中 " 冬季星座 " 的代表之一。
說回到已發布的 o1,圍繞它的另一種批評聲音是" 不符合科研規範 "。
例如沒有引用之前推理時間計算的相關工作,同時也缺乏與其他公司最先進模型的比較。
針對前一點,有人指出 OpenAI 已經不再是一個研究實驗室,應該被視為一家商業公司了。
有時他們仍會假裝自己是個研究實驗室,目的是招募想要做研究工作的人才。
不過針對後一點,既然 API 發布了,要不要與其他前沿模型比較就由不得你了,很多第三方 Benchmark 已陸續跑出結果。
在 Keras 之父舉辦的 100 萬美金AGI Prize比賽中,o1-preview 和 o1-mini 兩個版本在公開測試集上都超過了自家 GPT-4o。
但 o1-preview與隔壁 Claude 3.5-Sonnet 只是打了個平手。
在 o1 着重宣傳的代碼能力上,開源結對編程工具 aider團隊運行了測試,o1 系列也沒有取得明顯優勢。
對于整個代碼重寫任務,o1-preiview 取得 79.7 分,Claude-3.5-Sonnet 取得 75.2 分,o1 領先 4.5 分。
但對于更實用的代碼編輯任務,o1-preview 反而落後于 Claude-3.5-Sonnet,有 2.2 分的差距。
另外 aider 團隊提示,如果目前想用 o1 系列替代 Claude 編程,成本上要高很多。
與 OpenAI 有合作關系的"AI 程式員 "Devin團隊,已經提前拿到了 o1 訪問資格。
在他們的測試中,由 o1 系列驅動 Devin 基礎版本,與 GPT-4o 相比獲得非常大的提升。
不過相比已發布的 Devin 生產版本還是有較大差距,主要是由于 Devin 生產版本在專有數據上進行了訓練。
另外根基 Devin 團隊分享,o1 在得出正确的解決方案之前通常會回溯并考慮不同的選項,并且不太可能出現幻覺或自信地錯誤。
使用 o1-preview 時,Devin更有可能正确診斷 bug 的根本原因,而不是解決問題的症狀。
在更重視數學和邏輯推理的Livebench榜單中,o1-preview 在代碼單項落後的情況下,總分上超過 Claude-3.5-Sonnet 并拉開明顯差距。
Livebench 團隊分享這還只是初步結果,因為很多測試中還内置了 " 請一步一步地思考 " 等提示詞技巧,這并不是使用 o1 的最佳方法。
在中文大模型綜合測評基準SuperCLUE 的中文復雜任務高階推理測試中,o1-preview 的推理能力也大幅領先。
最後總結一下,使用 o1 模型還需要注意的一些地方:
成本非常高,1 百萬輸出 tokens 就要 60 美元,價格一夜回到 GPT-3 時代
隐藏的 resoning tokens 也是算在輸出 tokens 中,看不到,但是要付費
大多數任務最好先使用 GPT-4o,發現不夠用了再切換 o1,以節省成本。
代碼任務仍然優先使用 Claude-3.5-Sonnet
總之圍繞 OpenAI 新模型 o1,開發者社區還有很多疑問。
o1 開啟了 AI 高階推理的新範式,但它本身還不算完善,如何發揮他的最大價值還有待探索。
在此背景下,OpenAI 舉辦的 " 有問必答 " 活動,在 4 個小時内就收到上百條提問。
下面附上對整場活動内容的精選和總結。
OpenAI 員工 " 有問必答 "
首先對于這個突然發布的新模型,很多人好奇為什麼 OpenAI 給它取了 o1 這樣一個名字?
這是因為在 OpenAI 看了,o1 代表了 AI 能力的一個新的層級,因此對 " 計數器 " 進行了重置,而 o 則代表 OpenAI。
就像 o1 發布時奧特曼說的,可以進行復雜推理的 o1,是一個新範式的開始。
對于其中 preview 和 mini 兩個版本号,OpenAI 科學家也确認了網友的一些猜測——
preview 是一個臨時版本,正式版将在未來上線(實際上 preview 版本是 o1 的一個早期 checkpoint);而mini 版不保證近期之内會有更新。
配合 OpenAI 成員 Kevin Lu 之前發布的這張圖來看,就更加清晰明了了。
與 preview 相比,mini 在某些任務上表現出色,尤其是與代碼相關的任務,還可以探索更多的思維鏈,但世界知識相對少些。
對此,OpenAI 科學家趙盛佳的解釋是,mini 是一個高度專門化的模型,只關注少部分的能力,所以可以更深入。
也算是揭曉了之前奧特曼在這個問題上打的一個啞謎。
關于 o1 的運作方式,OpenAI 科學家 Noam Brown 也明确表示,并非是像部分網友認為的模型 +CoT 組成的 " 系統 ",而是一個已經被訓練得原生具備生成思維鏈能力的模型。
不過推理過程中的思維鏈會被隐藏,并且官方已經明确了沒有向用戶展示有關 token 的計劃。
對此 OpenAI 透露的為數不多的消息是,CoT 的相關 token 是總結性的,且不保證完全和推理過程匹配。
除了推理模式,在這次問答活動中還能夠得知,o1 與 GPT-4o 相比可以處理更長的文本,而且未來還會繼續增加。
表現上,在 OpenAI 内部的測試中,o1 顯現出了哲學推理能力, 可以思考諸如 " 生命是什麼?" 之類的哲學問題。
研究人員還使用 o1 創建了一個 GitHub 機器人,能夠将代碼 ping 給所有者以供審核。
當然對于一些非推理性質的任務,比如創意寫作,o1 的表現相比 GPT-4o 提升并不明顯,甚至有時還要略遜一籌。
另外綜合一些提問來看,對于網友們關心的一些未上線功能,OpenAI 表示正在或有計劃研究,但沒有明确的上線時間:
暫不支持工具調用,但函數調用、代碼解釋器都在未來計劃之中
未來 API 更新将加入結構化輸出、系統提示詞、提示詞緩存功能
微調也已在計劃中
API 用戶将可以自行設定對推理時間和 token 消耗的限制
o1 具有多模态能力,瞄準的是 MMMU 等數據集上的 SOTA,之後将實裝
性能上,OpenAI 也正在着手降低延遲和推理所需時間。
最後是人們,尤其是 API 用戶關心的價格問題,畢竟考慮到将推理過程計入輸出 token,o1 的定價還是比較高的。
OpenAI 表示" 将遵循每 1-2 年降價的趨勢 ",并且在使用量限制變得更寬松時,批量 API 定價也會上線。
網頁 /APP 端的 Plus 用戶,目前則是要受到每周 preview30 條 +mini50 條消息的限制。
不過好消息是,就在今天凌晨,由于人們對 o1 實在太熱情,導致很多人很快就把額度用完,所以OpenAI 特例把額度重置了一次。
那麼你對 o1 還有哪些疑問或期待?歡迎評論區交流。
參考鏈接:
[ 1 ] https://x.com/SmokeAwayyy/status/1834641370486915417
[ 2 ] https://x.com/flowersslop/status/1834416138400276714
[ 3 ] https://arcprize.org/blog/openai-o1-results-arc-prize
[ 4 ] https://livebench.ai
[ 5 ] https://mp.weixin.qq.com/s/XrgkD4T2XwXhGWuPkYtLMw
[ 6 ] https://x.com/OpenAIDevs/status/1834608585151594537
[ 7 ] https://x.com/btibor91/status/1834686946846597281