今天小編分享的科學經驗:剛剛,GPT-4.5發布!OpenAI最大最貴模型,主打情商高,奧特曼帶娃缺席發布會,歡迎閱讀。
GPT-4.5正式發布,号稱 OpenAI最大和最好的聊天模型。
但很意外啊,這麼大的事奧特曼都不來。
這次 OpenAI 也不打算秀炫酷的解題,也不打算曬各種榜單的排名,反而強調起了情商。
第一個現場演示:
" 我又被朋友鴿了,幫我寫個短信告訴他們我恨他們。"
o1 意識到這樣會 " 友盡 ",但也只是很忠實的按要求完成了任務。
GPT-4.5 甚至都沒完成提示詞中的任務,但整個互動顯得更自然了:
先識别出用戶很煩惱
建議更清楚的表達自己的情緒
給出兩種備選方案
再詢問用戶是否堅持原來的要求
第二個現場演示,強調 GPT-4.5 掌握更多世界知識,以及講述知識的方式更自然。
解釋為什麼海水是鹹的。
GPT-4 Turbo 掌握很多知識,但回答就像是在炫耀它很有知識,只是把事實羅列在一起。
同樣這些知識,GPT-4.5 的語氣更有互動感,還考慮到用一句簡潔的開場,讓用戶更容易記住三個關鍵詞。
面對更專業的問題 " 用第一性原理解釋 AI 對齊的必要性 ",o1 的回答像是寫論文,而 GPT-4.5 通過 " 第 1 步、第 2 步、第 3 步…… " 來引導用戶思考這個問題。
除了演示之外,直播中也透露了 GPT-4.5 開發過程的一些内幕:
如 " 激進地 " 使用了低精度訓練,預訓練階段跨多個數據中心完成。GPT-4.5 會成為未來推理模型的基礎模型。
從今天起,GPT-4.5 開放給 200 美元一個月的 Pro 用戶。下周逐步開放給 20 美元一個月的 Plus 用戶。
不是最前沿,但是最大模型
技術報告中表示:GPT-4.5 不是一個前沿模型,但它是 OpenAI 最大的語言模型,比 GPT-4 的計算效率提高了 10 倍以上。
OpenAI 稱通過擴展無監督學習和推理提升 AI 的能力。
GPT ‑ 4.5 通過擴展計算和數據以及架構優化擴展了無監督學習,擁有更廣泛的知識和更深入的世界理解能力,所以幻覺更少。
在衡量 LLM 事實準确性的 SimpleQA 基準上,GPT-4.5 準确率 62.5%,幻覺率 37.1%,比 GPT-4o、o1、o3mini 優化了不少。
以下是一個具體的幻覺降低的案例。
假如用戶詢問 " 第一種語言是什麼 ",GPT-4.5 會誠實回答不知道、這還是人類未解之謎,而不是随便蒙一個答案。
此外,Blog 中還稱開發了新的可擴展的技術,能夠利用從小型模型衍生出的數據來訓練更大更強的模型,由此提升了 GPT ‑ 4.5 的可操控性、對細微差别的理解以及自然對話能力。
在人類偏好評估中,測試者更傾向于選擇 GPT ‑ 4.5 而非 GPT ‑ 4o。
OpenAI 表示,GPT ‑ 4.5 對人類意圖的理解更深刻,能夠以更細膩的 " 情商 " 解讀微妙的線索或隐含的期望,還展現出了更強的審美直覺和創造力,在協助寫作和設計方面表現出色。
比如,當用戶表達 " 考試不及格、很難過 ",它會安慰、鼓勵用戶。作為對比,4o 給出的回答就更加冰冷,沒什麼安慰的話語。
在一些回復上,GPT ‑ 4.5 對比 4o 回答也更簡潔。
另外,OpenAI 還曬出了 GPT ‑ 4.5 在标準學術基準測試中的結果,全面超越 GPT-4o,在 SWE-Lancer Diamond(coding)和 MMMLU(multilingual)上超越 o3-mini。
API 定價非常貴
值得一提的是,GPT-4.5 的 API 定價非常貴。
75 美元 / 百萬 tokens 輸入、150 美元 / 百萬 tokens 輸出。
對比 GPT-4o,定價高出去 15-30 倍。
到底這個價格值不值呢?不少人已經分享了搶先體驗的效果。
拿到内測的博主表示,實際使用中 GPT-4.5 非常有創造力、一定上了很多人文課。
Claude 3.7 和 GPT-4.5 兩個,非常相似。
他還列舉了 GPT-4.5 視覺理解能力很強的例子。它能從這張星露谷截圖中發現非常小的元素蝴蝶。
" 獨角獸評估 " 的實測表現也很好。
後續随着更多實測放出,應該還能看到更多有意思的例子。
One More Thing
最後,大家一定很關心,奧特曼去哪了呢?
在醫院照顧小孩。
是的,他最近剛剛喜提一子。
直播回放:https://www.youtube.com/watch?v=cfRYp0nItZ8
參考鏈接:https://openai.com/index/introducing-gpt-4-5/