今天小编分享的科学经验:GPT-4更新被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位,欢迎阅读。
啥?
新版 GPT-4 是在 Q* 的输出上微调的?
在竞技场重回榜一的新版 GPT-4 Turbo,成功再次踩中大家嗨点。
它此次的性能提升体现在数学、推理、代码上,而且输出内容废话更少。
最让大家感到兴奋的是其数学 / 推理能力,现在可以在一些问题上完胜其他大模型。
比如 " 求 y=x^4-5x^2-x+4 和 y=x^2-3x 交点的 y 坐标之和。" 只有最新版 GPT-4 Turbo 能测出来。
这条推特被公开承认自己参与过 Q* 的 Lukasz Kaiser 转发。
Noam Brown 也发推表示新版 GPT-4 Turbo 在推理能力上大幅提升——要知道,这位 OpenAI 科学家一直被外界认为正在研究 Q*。
各方信息汇总后,网友们一拍腦袋反应过来,这其中会不会就引入了 Q* 啊?
数学方面的提升意味着其中可能包含了一个数学模型,可能是 Q*。
(以及他的数学题测试推特被 OpenAI 的人转发了)
好家伙,难道 OpenAI 在悄悄搞大事?
新 GPT-4 的 " 新马脚 "?
OpenAI 官方公告表示,最新版本的 GPT-4 Turbo 全方位大提升,现在 ChatGPT 用户可直接体验。
网友立马冲去实测,有人给出评估结果,特别是数学 / 推理能力有了重大提升。
实际问题测试中,在多个数学推理题上,GPT-4 Turbo 都没有翻车,但是如 Command-R plus、Clauede-3 Opus 等都有失误。
比如一道乘电梯的推理题。陷阱在于这部神奇电梯无论坐几层,最后都会停在一层。GPT-4 Turbo 理解了这层逻辑,最后给出了正确答案。
还有在修改二叉树问题上,GPT-4 Turbo 不仅回答正确,而且过程清晰完整。
同时在 " 大海捞针 " 能力上,与之前版本对比,最新 GPT-4 Turbo 已经是出版 GPT-4 能力的4.3 倍。
竞技场的结果表明,在代码能力方面,GPT-4 Turbo 也更强了。
文本输出方面变得更加简洁。
生成代码也少了很多废话(下图右侧为新版本)。
有人补充说,生成速度上也更快了。
神秘 Q*:OpenAI 的最大秘密?
现在 Q* 已经成了 OpenAI 的流量密码了,只要出现这个关键字,网友们都会兴奋不已。
毕竟当初奥特曼宫斗大戏就和它有关联,还有人发出警告,Q* 预示着 AGI 即将出现。
不过官方一直没有公开承认过这个项目的存在,奥特曼拒绝回答,Transformer 作者公开承认参与 Q* 也被 OpenAI 公关跳起来捂嘴。
从目前各方透露的信息来看,Q* 专注于逻辑和数学推理能力,数学能力突出。
Transformer 作者之一 Lukasz Kaiser承认自己参与了这个项目。
德扑 AI 之父、前 FAIR(Meta)研究科学家 Noam Brown 也被视为是 Q* 项目的重要成员(推测来自 LeCun)。
他加入 OpenAI 的动作也被外界视为分析 Q* 的一个线索,"有理由怀疑 Q 是将 LLM 和 AlphaGo 结合起来,并用强化学习进行训练"。
Noam Brown 开发出了第一个在打扑克牌上超越人类的 AI,后来加入 Meta 致力于让 AI 学会玩 Diplomacy(外交游戏)。
目前,关于 Q* 的准确信息还是非常少。
可能奥特曼还在等一个合适的时机来回应外界。
One More Thing
btw,网友们意外捉到总裁 Brockman 转发的一个视频演示里的提示词是:
看来大家拿 GPT-4 干的事也都差不多嘛(doge)。
参考链接:
[ 1 ] https://twitter.com/lukaszkaiser
[ 2 ] https://twitter.com/skirano/status/1778122305471705489
[ 3 ] https://twitter.com/7oponaut/status/1777971159478194256
[ 4 ] https://twitter.com/ai_for_success/status/1778073765748064678
[ 5 ] https://www.understandingai.org/p/how-to-think-about-the-openai-q-rumors