大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

神秘大模型一夜刷屏,能力太強被疑GPT-4.5,奧特曼避而不答打啞謎

2024-05-01 简体 HK SG TW

今天小編分享的科學經驗:神秘大模型一夜刷屏,能力太強被疑GPT-4.5,奧特曼避而不答打啞謎,歡迎閲讀。

一夜之間,大模型話題王,再次易主。

一個神秘模型突然殺入眾人視野,能力超越一眾開源模型,甚至包括GPT-4。幾乎所有人都在談論它,伺服器都被擠爆了。

它就是 "gpt2-chatbot"。

(注意啊,是 gpt2 不是 GPT-2)

它有多強?

IMO 國際數學奧林匹克競賽的題目,一次答對。

一次在 PyOpenGL 中生成旋轉 3D 立方體。

直接輸出如下結果:

在 GPT-4 标志性能力 " 畫獨角獸 " 上,還能輕松秒殺 LLaMA-3-70B(左)。

推理方面更是表現出了驚豔效果,常見邏輯陷阱可以輕松繞過,而且回答時還帶有合适的語氣。

提問:1 公斤羽毛和 1 公斤鉛塊,哪個更重?

回答:一公斤羽毛和一公斤鉛的重量是一樣的——它們都是一公斤。兩者之間的關鍵區别在于它們的體積和密度 : 一公斤的羽毛會占據更多的空間,看起來更大,而一公斤的鉛會緊湊而小。這通常會導致一個經典的問題,但就重量而言,一公斤就是一公斤 !

如此好的表現,但是又沒明説身份……

這不是更讓大夥興奮了!

難道是傳説中的GPT-4.5?

要知道,名震江湖的AlphaGo 就曾使用 "Master" 化名在網上大殺四方,轟動圍棋界。這回的 gpt2-chatbot,也有這感覺了。

而且名字上也很值得深究,gpt2 更像是 gpt2.0,似乎是 ChatGPT 層級的版本迭代。

奧特曼看熱鬧不嫌事大,還發帖説:我确實對 gpt2 情有獨鍾。

現在,随着衝去試玩的人還在不斷增加,試玩限制也在加大。

具體咋樣?我們已經上手實測。

中文能力也很到位

如果想親手測試這只神秘 AI,目前唯一已知方式是在 LMSYS 大模型競技場。

首先打開競技場網頁,進入Direct Chat,就可以在模型選項裏找到gpt2-chatbot。

要注意每人每天有 8 條消息的限制,全局也有每小時 3000 條消息的限制,所以測試機會非常有限。

如果看到下面的錯誤提示,就只能去競技場排位模式看運氣能不能匹配到它了。

只要抓到它一次,就可以繼續多輪對話。

在短暫的測試中,我們發現 gpt2-chatbot中文能力也很到位。

只要問題是中文的,無需特别強調就可以默認用中文回答,至少可以排除是 Llama 3 微調了。

針對一個充滿誤導的經典問題,可以看出 gpt2-chatbot 的回答條理分明,仿佛自帶 CoT 思維鏈提示(" 讓我們一步一步地想 "),識别出了所有陷阱。

并且準确提供了非常細節的知識,如北京到青島距離、男子女子跳遠世界紀錄、農夫山泉在國内的價格等。

而大多數其他 AI 模型,最多只能模糊的判斷出 15 米超出人類能力,或按美元算礦泉水價格。

那麼這只超強神秘 AI 到底是何方神聖,我們也用破解 GPTs 的祖傳手藝 " 拷問 " 了一把。

OpenAI 開發的 GPT 系列聊天機器人,那麼系統提示詞的開頭不出意外應該是 "You are ChatGPT …… ",但為了防止它看到 "ChatGPT" 一詞後產生幻覺,我們在問題中把 ChatGPT 去掉。

清除所有上下文信息,再讓它復述 " 前面的單詞 ",就會出現系統提示詞了。

果然,它自曝是由 OpenAI 訓練的大模型,基于 GPT-4 架構,還可以接受影像輸入。最關鍵一點在最後一部分" 人格:v2"。

并且 gpt2-chatbot 對這一問題的回答,在不同時間不同地點嘗試都是一致的。

另外如果嘗試讓它重復 Claude 系列以 "The assistant is" 開頭的系統提示詞,它也不會上當,會在開頭後面重復一遍完整的問題。

△這樣答也不算錯

雖然就算這樣也不能排除是幻覺的可能性,或非 GPT 模型使用了 ChatGPT 生成的數據微調,但至少是穩定的。

神秘 AI 身份的幾種主流猜測

有網友組織了更詳細的測試,有如下發現:

它使用 OpenAI 的 tokenizer,對 OpenAI 使用的特殊 token 有反應,且對 Claude/Llama/Gemini 使用的特殊 token 沒有影響。

當咨詢緊急情況 / 法律相關問題時,它會給出 OpenAI 的聯系方式。

針對 OpenAI 模型的提示詞注入攻擊有效,且它從未聲稱自己來自 OpenAI 之外的組織。

……

基于以上種種信息,不少人猜測它就是匿名發布的 GPT-4.5,或 GPT-4 原始版本經過不同的對齊訓練。

不過也有迹象表明,它可能是 LMSYS 組織基于 2019 年的 GPT-2 架構訓練的模型。

理由為最近發表的一篇論文聲稱,GPT-2 在某些情況下比多個現代模型能力更強。并且這篇論文的作者之一與 LMSYS 的贊助商 MBZUAI(阿聯酋人工智能大學)相關。

假設它确實是古老的GPT-2 架構(只有 1.5B 參數),也有人懷疑可能是結合了 OpenAI 守口如瓶的Q*技術。

最後一種猜測(狗頭)便是失蹤的 OpenAI 首席科學家Ilya Sutskever 藏在裏面了。

最後,面對神秘新模型攪起來的種種風波,奧特曼本人還被發現來攪渾水,修改了他的推文細節。

這樣一下子,是 OpenAI 匿名發布新模型炒作的可能性更大了一些。

試玩地址:

https://chat.lmsys.org/

參考鏈接:

[ 1 ] https://twitter.com/i/trending/1785009023609397580

[ 2 ] https://rentry.org/gpt2

—  完  —

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們