今天小編分享的科學經驗:GPT-4更新被曝引入Q*,推理/數學更強廢話更少,競技場重奪王位,歡迎閱讀。
啥?
新版 GPT-4 是在 Q* 的輸出上微調的?
在競技場重回榜一的新版 GPT-4 Turbo,成功再次踩中大家嗨點。
它此次的性能提升體現在數學、推理、代碼上,而且輸出内容廢話更少。
最讓大家感到興奮的是其數學 / 推理能力,現在可以在一些問題上完勝其他大模型。
比如 " 求 y=x^4-5x^2-x+4 和 y=x^2-3x 交點的 y 坐标之和。" 只有最新版 GPT-4 Turbo 能測出來。
這條推特被公開承認自己參與過 Q* 的 Lukasz Kaiser 轉發。
Noam Brown 也發推表示新版 GPT-4 Turbo 在推理能力上大幅提升——要知道,這位 OpenAI 科學家一直被外界認為正在研究 Q*。
各方信息匯總後,網友們一拍腦袋反應過來,這其中會不會就引入了 Q* 啊?
數學方面的提升意味着其中可能包含了一個數學模型,可能是 Q*。
(以及他的數學題測試推特被 OpenAI 的人轉發了)
好家夥,難道 OpenAI 在悄悄搞大事?
新 GPT-4 的 " 新馬腳 "?
OpenAI 官方公告表示,最新版本的 GPT-4 Turbo 全方位大提升,現在 ChatGPT 用戶可直接體驗。
網友立馬衝去實測,有人給出評估結果,特别是數學 / 推理能力有了重大提升。
實際問題測試中,在多個數學推理題上,GPT-4 Turbo 都沒有翻車,但是如 Command-R plus、Clauede-3 Opus 等都有失誤。
比如一道乘電梯的推理題。陷阱在于這部神奇電梯無論坐幾層,最後都會停在一層。GPT-4 Turbo 理解了這層邏輯,最後給出了正确答案。
還有在修改二叉樹問題上,GPT-4 Turbo 不僅回答正确,而且過程清晰完整。
同時在 " 大海撈針 " 能力上,與之前版本對比,最新 GPT-4 Turbo 已經是出版 GPT-4 能力的4.3 倍。
競技場的結果表明,在代碼能力方面,GPT-4 Turbo 也更強了。
文本輸出方面變得更加簡潔。
生成代碼也少了很多廢話(下圖右側為新版本)。
有人補充說,生成速度上也更快了。
神秘 Q*:OpenAI 的最大秘密?
現在 Q* 已經成了 OpenAI 的流量密碼了,只要出現這個關鍵字,網友們都會興奮不已。
畢竟當初奧特曼宮鬥大戲就和它有關聯,還有人發出警告,Q* 預示着 AGI 即将出現。
不過官方一直沒有公開承認過這個項目的存在,奧特曼拒絕回答,Transformer 作者公開承認參與 Q* 也被 OpenAI 公關跳起來捂嘴。
從目前各方透露的信息來看,Q* 專注于邏輯和數學推理能力,數學能力突出。
Transformer 作者之一 Lukasz Kaiser承認自己參與了這個項目。
德撲 AI 之父、前 FAIR(Meta)研究科學家 Noam Brown 也被視為是 Q* 項目的重要成員(推測來自 LeCun)。
他加入 OpenAI 的動作也被外界視為分析 Q* 的一個線索,"有理由懷疑 Q 是将 LLM 和 AlphaGo 結合起來,并用強化學習進行訓練"。
Noam Brown 開發出了第一個在打撲克牌上超越人類的 AI,後來加入 Meta 致力于讓 AI 學會玩 Diplomacy(外交遊戲)。
目前,關于 Q* 的準确信息還是非常少。
可能奧特曼還在等一個合适的時機來回應外界。
One More Thing
btw,網友們意外捉到總裁 Brockman 轉發的一個視頻演示裡的提示詞是:
看來大家拿 GPT-4 幹的事也都差不多嘛(doge)。
參考鏈接:
[ 1 ] https://twitter.com/lukaszkaiser
[ 2 ] https://twitter.com/skirano/status/1778122305471705489
[ 3 ] https://twitter.com/7oponaut/status/1777971159478194256
[ 4 ] https://twitter.com/ai_for_success/status/1778073765748064678
[ 5 ] https://www.understandingai.org/p/how-to-think-about-the-openai-q-rumors