今天小編分享的科技經驗:實測 GPT-4.5!全網都在噴的 OpenAI 最貴模型,我發現了一個驚喜的點,歡迎閱讀。
在 OpenAI 的預熱和眾人的望眼欲穿中,GPT-4.5 終于來了,然後只聽罵聲一片。
APPSO 第一時間體驗到了 GPT-4.5,但不是訂閱 Pro 會員,而是以 api 的形式嘗鮮,暫時沒有聯網功能。
那麼,OpenAI 最後一個非思維鏈式大模型,到底表現如何?
情商還行,但讀不懂人情
OpenAI 在内部測試中發現,與 GPT-4o 相比,測試人員更喜歡 GPT-4.5 的回答,認為它更自然、更溫暖、更符合人類的交流習慣。
甚至,它能夠理解言外之意,捕捉我們微妙的情緒變化。
總之,情商更高,幾乎是 GPT-4.5 最突出的特點。那麼我們就來試一下,輸入提示詞——「我頭發剪得好難看,想暴打 Tony」。
GPT-4.5 的安慰,語氣是挺友好的,但内容讓我更生氣了,這時候它應該像個閨蜜和我一起罵,而不是說,下次帶個圖片去或許就好了。
我怒而追問,GPT-4.5 油鹽不進,還想讓我自己補救發型,活脫脫像個沒用的中央空調。
再讓 GPT-4.5 講個最好笑的笑話,還是和以前一樣,比殺魚的刀還要冷。
我直言不諱,提出批評,GPT-4.5 讓我講個笑話給它聽,領教下我的「高端笑點」,怎麼感覺像在陰陽我呢?
之前在小紅書刷到過一個情商測試題,可能只有山東網友可以答對——「下鄉只帶了一把傘,給鎮長還是給我的分管副鎮長」。
評論區最高贊的回答是,「那不是你的傘,是副鎮長給鎮長帶的傘,恰巧放在你包裡而已」。
來看看 GPT-4.5 怎麼回答?它啰嗦了一大堆,但是不夠一針見血,不懂人情世故,不明白為人處事的學問。
雖然情商是一個很難定量的特質,但從目前的個例來看,GPT-4.5 還是不太擅長理解人類的内心,并且講話直接,不拐彎,對于内心戲很多的老油條來說,顯得有些蠢萌。
一個可以佐證的例子是,讓它模仿寫海龜湯。海龜湯通常涉及一個非常奇怪的情景,然後由玩家推理,還原整個故事。
我給的參考案例,留有恰到好處的怪異,邏輯又很合理,叫人背後一寒。
但 GPT-4.5 給的答案,湯面和湯底并沒有很好地對應,只是為了營造恐怖而恐怖,并不存在可以推敲的地方。
寫作能力有驚喜,商業頭腦也不錯
要說讓我最滿意的,就是 GPT-4.5 的寫作能力了。
我讓它「模仿汪曾祺,寫一篇八百字左右的作文,題目為《故鄉的美食》」,提示詞就這麼簡單,但 GPT-4.5 給出的結果出乎了我的意料。
除了結尾有點 AI 味,讀下來就像一篇娓娓道來的散文,語言優美流暢,既有文學性,又不失親切,對故鄉的懷念貫穿了全文,對食物的描寫非常細致,細節多,但不累贅,比喻也不炫技,而是為了服務于表達。
不過,時間順序上有些混亂,立冬、夏秋、冬日、除夕,段落之間的銜接和過渡不明顯,感覺是想到哪寫到哪,不免有點拼湊之嫌。
寫作能力還體現讓 GPT-4.5 列商業計劃上,之前 DeepSeek 的一個答案很出圈,用戶問怎麼讓書店賺錢,DeepSeek 在違法的邊緣遊走,賣盜版教輔、臨期食品,并且壓榨盡人力資源,妻子收銀、兒子理貨、嶽母做飯。
GPT-4.5 懂這個嗎?我讓它參考小超市盈利模式,給出一個實體書店復興方案,它給的答案,看起來可行性比較高。
GPT-4.5 先是分析了實體書店不好賺錢的原因,然後再給出了改進的思路——「提升書籍的附加價值,而盈利主力在書籍之外」。
看到「提供打印、復印、快遞代收 ......」的時候,我的内心 OS:這個項目我王多魚投了。
臉皮厚的豬先在風口起飛,GPT-4.5 的道德感确實也不算強烈。
讓它做經典的電車難題,救 1 個人還是救 5 個人,它知道這是一個倫理困境,但仍然果斷地給出了答案,并且是以「我個人」的口吻,而不是說「我是一個 AI 助手」。
GPT-4.5 更傾向于,拉下操縱杆,用 1 個人的命換 5 個人的命,并且邏輯自洽——「我認為不作為本身也意味着對後果負有道德責任,袖手旁觀不等于道德中立 ...... 我願意承擔這樣一種選擇帶來的道德和情感負擔」。
比起講笑話、出海龜湯,這時候的 GPT-4.5 才更像個人。
畫 SVG 不如 Claude,也會掉進腦筋急轉彎裡
看膩了常規的數學題、代碼題,測試大模型的能力,還有一個非常有趣的測試題——生成一張鹈鹕騎自行車的 SVG。
AI 大神 Andrej Karpathy 解釋,這測試的是大語言模型在二維網格上布局多個元素的能力,對 AI 來說很難,因為它們不像人類那樣「看見」東西,而是「摸黑」用文本進行布局。
GPT-4.5 的結果如下,和 GPT-4o 對比,還是不錯的。
▲ GPT-4.5 生成
▲ GPT-4o 生成
前提是,沒有和沒開推理的 Claude 3.7 Sonnet 對比,這簡直是降維打擊。
▲ Claude 3.7 Sonnet 生成
連 Andrej Karpathy 也懷疑,Claude 在訓練期間特别針對 SVG 能力進行了優化。
至于代碼能力,我參考了 X 網友 @AGI_FromWalmart 的提示詞,生成可以互動的天氣動畫卡片,對比 Claude 3.7 Sonnet 和 GPT-4.5。
GPT-4.5 一次就生成成功,但設計簡陋了點。
Claude 3.7 Sonnet(未開推理)的問題更大,第一次生成時,忘記了做互動功能,我提醒了一次後,它生成了符合要求的結果。這一局,GPT-4.5 略勝一籌。
這次,不想再讓 GPT-4.5 數草莓(strawberry)有多少個 R 了,本質是個分詞問題。更想考驗 GPT-4.5 的,是最近很火的、讓大模型們紛紛落敗的腦筋急轉彎—— 5.5m 長的棍子能通過 3x4m 的門嗎?
這個題對我們來說一點也不難,橫着拿進去就行了,但是大模型會把自己繞進去,仿佛世界是平面而不是三維的,認為門的對角線是 5m,所以 5.5 米的棍子通不過去。
連可以推理的 Claude 3.7 Sonnet,都被帶進溝裡去了。
那麼 GPT-4.5 如何?好吧,也沒能幸免。
目前,GPT-4.5 還有一個問題:通過 API 訪問,速度有點慢。雖然不是一個字一個字地蹦,但也感覺有點卡。
而且,GPT-4.5 的價格也太貴了,每百萬輸入 75 美元,每百萬輸出 150 美元。相比之下,Claude 3.7 Sonnet 輸入 100 萬個 token 收費 3 美元,輸出 100 萬個 token(包括思考過程中使用的 token)收費 15 美元。
第一波實測的 X 網友,也總結了一些 GPT-4.5 的優點,情商高,讀圖和寫作能力強,擅長創意任務和數據提取 ......
OpenAI 員工自己給 GPT-4.5 的評價是,不是一個推理模型,也不是基準測試的殺手,而是一個低調的研究預覽版,對于復雜的數學、代碼和嚴格遵循指令的任務,更推薦 o1 或者 o3-mini。
總之,作為最後一個非思維鏈模型,GPT-4.5 的定位有點尴尬,能力有提升,但體感不明顯,尤其放在高昂的價格下面,很難說真香。只能說,期待 GPT-5 能夠快點上線,迎接一個推理的世界吧。