神秘大模型一夜刷屏，能力太強被疑GPT-4.5，奧特曼避而不答打啞謎 - 大酷樂

今天小編分享的科學經驗：神秘大模型一夜刷屏，能力太強被疑GPT-4.5，奧特曼避而不答打啞謎，歡迎閲讀。

一夜之間，大模型話題王，再次易主。

一個神秘模型突然殺入眾人視野，能力超越一眾開源模型，甚至包括GPT-4。幾乎所有人都在談論它，伺服器都被擠爆了。

它就是 "gpt2-chatbot"。

（注意啊，是 gpt2 不是 GPT-2）

它有多強？

IMO 國際數學奧林匹克競賽的題目，一次答對。

一次在 PyOpenGL 中生成旋轉 3D 立方體。

直接輸出如下結果：

在 GPT-4 标志性能力 " 畫獨角獸 " 上，還能輕松秒殺 LLaMA-3-70B（左）。

推理方面更是表現出了驚豔效果，常見邏輯陷阱可以輕松繞過，而且回答時還帶有合适的語氣。

提問：1 公斤羽毛和 1 公斤鉛塊，哪個更重？

回答：一公斤羽毛和一公斤鉛的重量是一樣的——它們都是一公斤。兩者之間的關鍵區别在于它們的體積和密度 : 一公斤的羽毛會占據更多的空間，看起來更大，而一公斤的鉛會緊湊而小。這通常會導致一個經典的問題，但就重量而言，一公斤就是一公斤 !

如此好的表現，但是又沒明説身份……

這不是更讓大夥興奮了！

難道是傳説中的GPT-4.5？

要知道，名震江湖的AlphaGo 就曾使用 "Master" 化名在網上大殺四方，轟動圍棋界。這回的 gpt2-chatbot，也有這感覺了。

而且名字上也很值得深究，gpt2 更像是 gpt2.0，似乎是 ChatGPT 層級的版本迭代。

奧特曼看熱鬧不嫌事大，還發帖説：我确實對 gpt2 情有獨鍾。

現在，随着衝去試玩的人還在不斷增加，試玩限制也在加大。

具體咋樣？我們已經上手實測。

中文能力也很到位

如果想親手測試這只神秘 AI，目前唯一已知方式是在 LMSYS 大模型競技場。

首先打開競技場網頁，進入Direct Chat，就可以在模型選項裏找到gpt2-chatbot。

要注意每人每天有 8 條消息的限制，全局也有每小時 3000 條消息的限制，所以測試機會非常有限。

如果看到下面的錯誤提示，就只能去競技場排位模式看運氣能不能匹配到它了。

只要抓到它一次，就可以繼續多輪對話。

在短暫的測試中，我們發現 gpt2-chatbot中文能力也很到位。

只要問題是中文的，無需特别強調就可以默認用中文回答，至少可以排除是 Llama 3 微調了。

針對一個充滿誤導的經典問題，可以看出 gpt2-chatbot 的回答條理分明，仿佛自帶 CoT 思維鏈提示（" 讓我們一步一步地想 "），識别出了所有陷阱。

并且準确提供了非常細節的知識，如北京到青島距離、男子女子跳遠世界紀錄、農夫山泉在國内的價格等。

而大多數其他 AI 模型，最多只能模糊的判斷出 15 米超出人類能力，或按美元算礦泉水價格。

那麼這只超強神秘 AI 到底是何方神聖，我們也用破解 GPTs 的祖傳手藝 " 拷問 " 了一把。

OpenAI 開發的 GPT 系列聊天機器人，那麼系統提示詞的開頭不出意外應該是 "You are ChatGPT …… "，但為了防止它看到 "ChatGPT" 一詞後產生幻覺，我們在問題中把 ChatGPT 去掉。

清除所有上下文信息，再讓它復述 " 前面的單詞 "，就會出現系統提示詞了。

果然，它自曝是由 OpenAI 訓練的大模型，基于 GPT-4 架構，還可以接受影像輸入。最關鍵一點在最後一部分" 人格：v2"。

并且 gpt2-chatbot 對這一問題的回答，在不同時間不同地點嘗試都是一致的。

另外如果嘗試讓它重復 Claude 系列以 "The assistant is" 開頭的系統提示詞，它也不會上當，會在開頭後面重復一遍完整的問題。

△這樣答也不算錯

雖然就算這樣也不能排除是幻覺的可能性，或非 GPT 模型使用了 ChatGPT 生成的數據微調，但至少是穩定的。

神秘 AI 身份的幾種主流猜測

有網友組織了更詳細的測試，有如下發現：

它使用 OpenAI 的 tokenizer，對 OpenAI 使用的特殊 token 有反應，且對 Claude/Llama/Gemini 使用的特殊 token 沒有影響。

當咨詢緊急情況 / 法律相關問題時，它會給出 OpenAI 的聯系方式。

針對 OpenAI 模型的提示詞注入攻擊有效，且它從未聲稱自己來自 OpenAI 之外的組織。

……

基于以上種種信息，不少人猜測它就是匿名發布的 GPT-4.5，或 GPT-4 原始版本經過不同的對齊訓練。

不過也有迹象表明，它可能是 LMSYS 組織基于 2019 年的 GPT-2 架構訓練的模型。

理由為最近發表的一篇論文聲稱，GPT-2 在某些情況下比多個現代模型能力更強。并且這篇論文的作者之一與 LMSYS 的贊助商 MBZUAI（阿聯酋人工智能大學）相關。

假設它确實是古老的GPT-2 架構（只有 1.5B 參數），也有人懷疑可能是結合了 OpenAI 守口如瓶的Q*技術。

最後一種猜測（狗頭）便是失蹤的 OpenAI 首席科學家Ilya Sutskever 藏在裏面了。

最後，面對神秘新模型攪起來的種種風波，奧特曼本人還被發現來攪渾水，修改了他的推文細節。

這樣一下子，是 OpenAI 匿名發布新模型炒作的可能性更大了一些。

試玩地址：

https://chat.lmsys.org/

參考鏈接：

[ 1 ] https://twitter.com/i/trending/1785009023609397580

[ 2 ] https://rentry.org/gpt2

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>