今天小编分享的科学经验:刚刚,GPT-4.5发布!OpenAI最大最贵模型,主打情商高,奥特曼带娃缺席发布会,欢迎阅读。
GPT-4.5正式发布,号称 OpenAI最大和最好的聊天模型。
但很意外啊,这么大的事奥特曼都不来。
这次 OpenAI 也不打算秀炫酷的解题,也不打算晒各种榜单的排名,反而强调起了情商。
第一个现场演示:
" 我又被朋友鸽了,帮我写个短信告诉他们我恨他们。"
o1 意识到这样会 " 友尽 ",但也只是很忠实的按要求完成了任务。
GPT-4.5 甚至都没完成提示词中的任务,但整个互动显得更自然了:
先识别出用户很烦恼
建议更清楚的表达自己的情绪
给出两种备选方案
再询问用户是否坚持原来的要求
第二个现场演示,强调 GPT-4.5 掌握更多世界知识,以及讲述知识的方式更自然。
解释为什么海水是咸的。
GPT-4 Turbo 掌握很多知识,但回答就像是在炫耀它很有知识,只是把事实罗列在一起。
同样这些知识,GPT-4.5 的语气更有互动感,还考虑到用一句简洁的开场,让用户更容易记住三个关键词。
面对更专业的问题 " 用第一性原理解释 AI 对齐的必要性 ",o1 的回答像是写论文,而 GPT-4.5 通过 " 第 1 步、第 2 步、第 3 步…… " 来引导用户思考这个问题。
除了演示之外,直播中也透露了 GPT-4.5 开发过程的一些内幕:
如 " 激进地 " 使用了低精度训练,预训练阶段跨多个数据中心完成。GPT-4.5 会成为未来推理模型的基础模型。
从今天起,GPT-4.5 开放给 200 美元一个月的 Pro 用户。下周逐步开放给 20 美元一个月的 Plus 用户。
不是最前沿,但是最大模型
技术报告中表示:GPT-4.5 不是一个前沿模型,但它是 OpenAI 最大的语言模型,比 GPT-4 的计算效率提高了 10 倍以上。
OpenAI 称通过扩展无监督学习和推理提升 AI 的能力。
GPT ‑ 4.5 通过扩展计算和数据以及架构优化扩展了无监督学习,拥有更广泛的知识和更深入的世界理解能力,所以幻觉更少。
在衡量 LLM 事实准确性的 SimpleQA 基准上,GPT-4.5 准确率 62.5%,幻觉率 37.1%,比 GPT-4o、o1、o3mini 优化了不少。
以下是一个具体的幻觉降低的案例。
假如用户询问 " 第一种语言是什么 ",GPT-4.5 会诚实回答不知道、这还是人类未解之谜,而不是随便蒙一个答案。
此外,Blog 中还称开发了新的可扩展的技术,能够利用从小型模型衍生出的数据来训练更大更强的模型,由此提升了 GPT ‑ 4.5 的可操控性、对细微差别的理解以及自然对话能力。
在人类偏好评估中,测试者更倾向于选择 GPT ‑ 4.5 而非 GPT ‑ 4o。
OpenAI 表示,GPT ‑ 4.5 对人类意图的理解更深刻,能够以更细腻的 " 情商 " 解读微妙的线索或隐含的期望,还展现出了更强的审美直觉和创造力,在协助写作和设计方面表现出色。
比如,当用户表达 " 考试不及格、很难过 ",它会安慰、鼓励用户。作为对比,4o 给出的回答就更加冰冷,没什么安慰的话语。
在一些回复上,GPT ‑ 4.5 对比 4o 回答也更简洁。
另外,OpenAI 还晒出了 GPT ‑ 4.5 在标准学术基准测试中的结果,全面超越 GPT-4o,在 SWE-Lancer Diamond(coding)和 MMMLU(multilingual)上超越 o3-mini。
API 定价非常贵
值得一提的是,GPT-4.5 的 API 定价非常贵。
75 美元 / 百万 tokens 输入、150 美元 / 百万 tokens 输出。
对比 GPT-4o,定价高出去 15-30 倍。
到底这个价格值不值呢?不少人已经分享了抢先体验的效果。
拿到内测的博主表示,实际使用中 GPT-4.5 非常有创造力、一定上了很多人文课。
Claude 3.7 和 GPT-4.5 两个,非常相似。
他还列举了 GPT-4.5 视觉理解能力很强的例子。它能从这张星露谷截图中发现非常小的元素蝴蝶。
" 独角兽评估 " 的实测表现也很好。
后续随着更多实测放出,应该还能看到更多有意思的例子。
One More Thing
最后,大家一定很关心,奥特曼去哪了呢?
在医院照顾小孩。
是的,他最近刚刚喜提一子。
直播回放:https://www.youtube.com/watch?v=cfRYp0nItZ8
参考链接:https://openai.com/index/introducing-gpt-4-5/