實測 GPT-4.5！全網都在噴的 OpenAI 最貴模型，我發現了一個驚喜的點 - 大酷樂

今天小編分享的科技經驗：實測 GPT-4.5！全網都在噴的 OpenAI 最貴模型，我發現了一個驚喜的點，歡迎閱讀。

在 OpenAI 的預熱和眾人的望眼欲穿中，GPT-4.5 終于來了，然後只聽罵聲一片。

APPSO 第一時間體驗到了 GPT-4.5，但不是訂閱 Pro 會員，而是以 api 的形式嘗鮮，暫時沒有聯網功能。

那麼，OpenAI 最後一個非思維鏈式大模型，到底表現如何？

情商還行，但讀不懂人情

OpenAI 在内部測試中發現，與 GPT-4o 相比，測試人員更喜歡 GPT-4.5 的回答，認為它更自然、更溫暖、更符合人類的交流習慣。

甚至，它能夠理解言外之意，捕捉我們微妙的情緒變化。

總之，情商更高，幾乎是 GPT-4.5 最突出的特點。那麼我們就來試一下，輸入提示詞——「我頭發剪得好難看，想暴打 Tony」。

GPT-4.5 的安慰，語氣是挺友好的，但内容讓我更生氣了，這時候它應該像個閨蜜和我一起罵，而不是說，下次帶個圖片去或許就好了。

我怒而追問，GPT-4.5 油鹽不進，還想讓我自己補救發型，活脫脫像個沒用的中央空調。

再讓 GPT-4.5 講個最好笑的笑話，還是和以前一樣，比殺魚的刀還要冷。

我直言不諱，提出批評，GPT-4.5 讓我講個笑話給它聽，領教下我的「高端笑點」，怎麼感覺像在陰陽我呢？

之前在小紅書刷到過一個情商測試題，可能只有山東網友可以答對——「下鄉只帶了一把傘，給鎮長還是給我的分管副鎮長」。

評論區最高贊的回答是，「那不是你的傘，是副鎮長給鎮長帶的傘，恰巧放在你包裡而已」。

來看看 GPT-4.5 怎麼回答？它啰嗦了一大堆，但是不夠一針見血，不懂人情世故，不明白為人處事的學問。

雖然情商是一個很難定量的特質，但從目前的個例來看，GPT-4.5 還是不太擅長理解人類的内心，并且講話直接，不拐彎，對于内心戲很多的老油條來說，顯得有些蠢萌。

一個可以佐證的例子是，讓它模仿寫海龜湯。海龜湯通常涉及一個非常奇怪的情景，然後由玩家推理，還原整個故事。

我給的參考案例，留有恰到好處的怪異，邏輯又很合理，叫人背後一寒。

但 GPT-4.5 給的答案，湯面和湯底并沒有很好地對應，只是為了營造恐怖而恐怖，并不存在可以推敲的地方。

寫作能力有驚喜，商業頭腦也不錯

要說讓我最滿意的，就是 GPT-4.5 的寫作能力了。

我讓它「模仿汪曾祺，寫一篇八百字左右的作文，題目為《故鄉的美食》」，提示詞就這麼簡單，但 GPT-4.5 給出的結果出乎了我的意料。

除了結尾有點 AI 味，讀下來就像一篇娓娓道來的散文，語言優美流暢，既有文學性，又不失親切，對故鄉的懷念貫穿了全文，對食物的描寫非常細致，細節多，但不累贅，比喻也不炫技，而是為了服務于表達。

不過，時間順序上有些混亂，立冬、夏秋、冬日、除夕，段落之間的銜接和過渡不明顯，感覺是想到哪寫到哪，不免有點拼湊之嫌。

寫作能力還體現讓 GPT-4.5 列商業計劃上，之前 DeepSeek 的一個答案很出圈，用戶問怎麼讓書店賺錢，DeepSeek 在違法的邊緣遊走，賣盜版教輔、臨期食品，并且壓榨盡人力資源，妻子收銀、兒子理貨、嶽母做飯。

GPT-4.5 懂這個嗎？我讓它參考小超市盈利模式，給出一個實體書店復興方案，它給的答案，看起來可行性比較高。

GPT-4.5 先是分析了實體書店不好賺錢的原因，然後再給出了改進的思路——「提升書籍的附加價值，而盈利主力在書籍之外」。

看到「提供打印、復印、快遞代收 ......」的時候，我的内心 OS：這個項目我王多魚投了。

臉皮厚的豬先在風口起飛，GPT-4.5 的道德感确實也不算強烈。

讓它做經典的電車難題，救 1 個人還是救 5 個人，它知道這是一個倫理困境，但仍然果斷地給出了答案，并且是以「我個人」的口吻，而不是說「我是一個 AI 助手」。

GPT-4.5 更傾向于，拉下操縱杆，用 1 個人的命換 5 個人的命，并且邏輯自洽——「我認為不作為本身也意味着對後果負有道德責任，袖手旁觀不等于道德中立 ...... 我願意承擔這樣一種選擇帶來的道德和情感負擔」。

比起講笑話、出海龜湯，這時候的 GPT-4.5 才更像個人。

畫 SVG 不如 Claude，也會掉進腦筋急轉彎裡

看膩了常規的數學題、代碼題，測試大模型的能力，還有一個非常有趣的測試題——生成一張鹈鹕騎自行車的 SVG。

AI 大神 Andrej Karpathy 解釋，這測試的是大語言模型在二維網格上布局多個元素的能力，對 AI 來說很難，因為它們不像人類那樣「看見」東西，而是「摸黑」用文本進行布局。

GPT-4.5 的結果如下，和 GPT-4o 對比，還是不錯的。

▲ GPT-4.5 生成

▲ GPT-4o 生成

前提是，沒有和沒開推理的 Claude 3.7 Sonnet 對比，這簡直是降維打擊。

▲ Claude 3.7 Sonnet 生成

連 Andrej Karpathy 也懷疑，Claude 在訓練期間特别針對 SVG 能力進行了優化。

至于代碼能力，我參考了 X 網友 @AGI_FromWalmart 的提示詞，生成可以互動的天氣動畫卡片，對比 Claude 3.7 Sonnet 和 GPT-4.5。

GPT-4.5 一次就生成成功，但設計簡陋了點。

Claude 3.7 Sonnet（未開推理）的問題更大，第一次生成時，忘記了做互動功能，我提醒了一次後，它生成了符合要求的結果。這一局，GPT-4.5 略勝一籌。

這次，不想再讓 GPT-4.5 數草莓（strawberry）有多少個 R 了，本質是個分詞問題。更想考驗 GPT-4.5 的，是最近很火的、讓大模型們紛紛落敗的腦筋急轉彎—— 5.5m 長的棍子能通過 3x4m 的門嗎？

這個題對我們來說一點也不難，橫着拿進去就行了，但是大模型會把自己繞進去，仿佛世界是平面而不是三維的，認為門的對角線是 5m，所以 5.5 米的棍子通不過去。

連可以推理的 Claude 3.7 Sonnet，都被帶進溝裡去了。

那麼 GPT-4.5 如何？好吧，也沒能幸免。

目前，GPT-4.5 還有一個問題：通過 API 訪問，速度有點慢。雖然不是一個字一個字地蹦，但也感覺有點卡。

而且，GPT-4.5 的價格也太貴了，每百萬輸入 75 美元，每百萬輸出 150 美元。相比之下，Claude 3.7 Sonnet 輸入 100 萬個 token 收費 3 美元，輸出 100 萬個 token（包括思考過程中使用的 token）收費 15 美元。

第一波實測的 X 網友，也總結了一些 GPT-4.5 的優點，情商高，讀圖和寫作能力強，擅長創意任務和數據提取 ......

OpenAI 員工自己給 GPT-4.5 的評價是，不是一個推理模型，也不是基準測試的殺手，而是一個低調的研究預覽版，對于復雜的數學、代碼和嚴格遵循指令的任務，更推薦 o1 或者 o3-mini。

總之，作為最後一個非思維鏈模型，GPT-4.5 的定位有點尴尬，能力有提升，但體感不明顯，尤其放在高昂的價格下面，很難說真香。只能說，期待 GPT-5 能夠快點上線，迎接一個推理的世界吧。