大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

GPT-4.5 重磅發布!OpenAI 最大最貴模型,沒把 DeepSeek 當對手

2025-02-28 简体 HK SG TW

今天小編分享的科技經驗:GPT-4.5 重磅發布!OpenAI 最大最貴模型,沒把 DeepSeek 當對手,歡迎閲讀。

朋友,先别急着退訂 ChatGPT 會員。

最近,DeepSeek 開源周搞得熱火朝天,全球開發者忙着分享代碼、碰撞靈感;而另一邊,OpenAI 卻選在開源周最後一天冷不丁地丢出了 GPT-4.5 這個「大殺器」。

Sam Altman 在 X 平台在 X 分享了他的個人體驗:

這是我第一次覺得 AI 像在與一位深思熟慮的人對話。它真的能提供有價值的建議,甚至讓我有幾次靠在椅子上,驚訝于 AI 竟然能給出如此出色的回答。

不過,他也特别提醒,GPT-4.5 不是推理型模型,不會在基準測試中碾壓其他模型。而他之所以沒有亮相發布會,原因是在醫院照顧小孩。

從今天開始,ChatGPT Pro 用户已經用上 GPT-4.5(研究預覽版)了。下周,将會逐步開放給 Plus 和 Team 用户;再下一周,Enterprise 和 Edu 用户也能體驗到這個新版本。

體驗方式十分簡單,只需在網頁版、移動端和桌面端的模型選擇器即可切換使用。

GPT-4.5 支持聯網搜索,并能夠處理檔案和圖片上傳,還可以使用 Canvas 來進行寫作和編程。不過,目前 GPT-4.5 還不支持多模态功能,如語音模式、視頻和螢幕共享。

GPT-4.5 主要通過「無監督學習」(就是自己從大量數據中學習)變得更聰明,而不是像 OpenAI o1 或者 DeepSeek R1 那樣專注于推理能力。

簡單説,GPT-4.5 知道的更多,而 o1 系列更會思考。

亮點概括如下:

知識更廣泛:它學習了更多的信息,所以懂的東西比以前多

更少胡説八道:減少了「幻覺」(就是 AI 編造事實的情況)

更懂人心:「情商」更高,更能理解你的真實意圖

對話更自然:聊天感覺更像和真人交流,不那麼機械

創意更豐富:在寫作和設計方面表現更好

GPT-4.5 正式發布,更懂你的心了

GPT-4.5 最直觀的變化就是更懂你。

它更像一個善解人意的朋友,能夠理解你的言外之意,捕捉你微妙的情感變化。

OpenAI 在内部測試中發現,與 GPT-4o 相比,測試人員更喜歡 GPT-4.5 的回答,認為它更自然、更温暖、更符合人類的交流習慣。

在與人類測試者的對比評估中,GPT-4.5 相較于 GPT-4o 的勝率(人類偏好測試)更高,包括但不限于創造性智能(56.8%)、專業問題(63.2%)以及日常問題(57.0%)。

作為 OpenAI 迄今為止規模最大、知識最豐富的模型,GPT-4.5 在 GPT-4o 的基礎上進一步擴展了預訓練,并被設計為比 OpenAI 以 STEM 領網域推理為重點的強大模型更加通用。

GPT-4.5 的突破,很大程度上歸功于「無監督學習」的進步。

簡單來説,無監督學習就是讓 AI 自己從海量數據中學習,而不是靠人工标注數據。

這就好比讓一個孩子自己去看世界,而不是事事都由大人告訴他。這樣,孩子就能學到更多更豐富的知識,形成自己的「世界觀」。

OpenAI 認為,無監督學習和推理能力是 AI 發展的兩大支柱。

得益于此,GPT-4.5 的知識面更廣,對用户意圖的理解更精準,情緒智能也有所提升,因此特别适用于寫作、編程和解決實際問題,同時減少了幻覺現象。

SimpleQA 用于評估大語言模型(LLM)在簡單但具有挑戰性的知識問答中的事實性。而 GPT-4.5 在 SimpleQA 準确率(數值越高越好)達到 62.5%,遙遙領先于 OpenAI 其它模型。

另外,在 SimpleQA 幻覺率(數值越低越好)的評估中,GPT-4.5 的分數為 37.1%,也和 OpenAI 其它模型拉開差距。

在 PersonQA 數據集上,GPT-4.5 取得了 0.78 的準确率,優于 GPT-4o(0.28)和 o1(0.55)。

此外,OpenAI 對 GPT-4.5 進行了廣泛的安全測試,包括有害内容拒絕、幻覺評估、偏見檢測、越獄攻擊防護等:GPT-4.5 在拒絕不安全内容方面表現良好,但在過度拒絕(overrefusal)方面比前代模型稍高。

多語言性能方面,GPT-4.5 支持 14 種語言,在 MMLU 評估中超越了 GPT-4o,尤其在低資源語言(如斯瓦希裏語、約魯巴語)上有明顯提升。

至于編程和軟體工程,GPT-4.5 代碼生成和修復任務表現有所提升。

Agentic Tasks 評估的是 AI 在真實環境中獨立完成復雜任務的能力,包括終端操作(Linux + Python 環境)、資源獲取(如自動下載、運行程式)以及復雜任務執行(如加載和運行 AI 模型)等。

OpenAI 發布的系統卡顯示,GPT-4.5 在自主任務方面仍然受到一定限制,遠未達到真正的自主 AI Agent。

除了普通用户,GPT-4.5 也向開發者敞開了大門。

OpenAI 同步開放了 GPT-4.5 的 API,包括 Chat Completions API、Assistants API 和 Batch API。

GPT-4.5 支持函數調用(function calling)、結構化輸出(Structured Outputs)、流式響應(streaming)和系統消息(system messages),并且具備視覺能力,可通過影像輸入進行處理。

開發者可以通過 API 接口将 GPT-4.5 集成到自己的應用中,創造出更多有趣、有用的產品。

不過,GPT-4.5 計算量極大,成本高昂,因此并不會取代 GPT-4o。并且,OpenAI 仍在評估是否長期在 API 中提供 GPT-4.5,以便在支持當前功能的同時,繼續推進未來模型的開發。

AI 進入「拼情商」時代?

本次直播環節由 Mia Glaese、Rapha Gontijo Lopes、Youlong Cheng、Jason Teplitz 和 Alex Paino 主持。

當演示人員要求寫一條憤怒短信給頻繁取消約會的朋友時,GPT-4.5 能夠識别出用户的沮喪情緒,并給出了更加微妙且建設性的回應,幫助用户以更理性的方式表達感受。

另一個演示則展示了 GPT-4.5 在解釋復雜問題上的能力,「為什麼海水是鹹的?」

GPT-1 完全不知道答案,GPT-2 給出相關但錯誤的回答,GPT-3.5 Turbo 首次給出正确但解釋不充分的答案,GPT-4 過于詳盡列舉事實,而 GPT-4.5 則提供了簡潔、連貫且有趣的解釋,開頭使用了甚至使用了朗朗上口的句式。

據介紹,OpenAI 在開發 GPT-4.5 時實現了幾項關鍵的訓練機制創新。

訓練如此大規模的模型需要顯著提升後訓練(post-training)基礎設施,因為預訓練階段和後訓練階段的訓練數據與參數大小比例完全不同。

團隊開發了一種新的訓練機制,能夠使用更小的計算資源來微調如此大型的模型。

具體來説,他們通過多次迭代,結合了監督式微調(supervised fine-tuning)和基于人類反饋的強化學習(reinforcement learning with human feedback)來完成後訓練過程,最終開發出了可以部署的模型。

在預訓練方面,由 Alex 和 Jason 領導的團隊采取了多項措施來最大化計算資源的利用:

使用低精度訓練(low precision training)來充分利用 GPU 性能

跨多個數據中心同時預訓練模型,因為他們需要的計算資源超過了單一高帶寬網絡架構所能提供的上限

此外,團隊構建了新的推理系統,确保模型能在 ChatGPT 中快速響應用户,保持對話的流暢性。同時,他們表示将在發布後繼續改進,使模型運行更快。

這些訓練和部署機制的創新使團隊能夠将更多計算能力注入模型中,從而實現無監督學習的大規模擴展,這也是 GPT-4.5 能夠在不依賴逐步推理的情況下,仍然展現出強大理解能力和較低幻覺率的關鍵原因。

值得一提的是,OpenAI 的首席研究官 Mark Chen 在 GPT-4.5 發布之前接受了 Alex Kantrowitz 的采訪。

當被問到 OpenAI 是否在模型運行效率方面有所改進時,他表示:

讓模型的運行更高效這一過程,通常與模型核心能力的開發相對獨立。我看到很多工作都集中在推理(Inference)架構上。DeepSeek 在這方面做得很好,而我們也在這方面投入了大量精力。我們非常關注如何以更低的成本向所有用户提供這些模型服務,并一直在努力降低成本。

無論是 GPT-4 這樣的推理模型,還是其他模型,我們始終在推動更低成本的推理優化。從 GPT-4 最初發布以來,運行成本已經降低了多個數量級,我們在這方面取得了不錯的進展。

随後,當被問及當前的 Scaling Law 是否已經遇到瓶頸,或者是否觀察到擴展帶來的收益遞減時,Mark Chen 回答道:

「我對 Scaling 有不同的理解。當涉及無監督學習時,你需要更多的關鍵要素,比如計算資源、算法優化以及更多的數據。而 GPT-4.5 确實證明了我們可以繼續推進擴展範式,而且這種範式并不與推理能力相對立。

推理能力需要建立在知識的基礎之上。一個模型不能憑空推理,而是需要先獲取知識,再在此基礎上發展推理能力。因此,我們認為這兩種範式是相輔相成的,并且它們之間存在相互促進的反饋循環。」

實際上,GPT-4.5 不僅展示了無監督學習的巨大潛力,也預示着 AI 的發展方向——更像人。

過去,AI 的發展主要集中在提高智力,比如下棋、做題、識别影像等。而現在,與兩年前 GPT-4 橫空出世時引發的轟動不同,人們對 AI 的期待已經從兩年前的「能做什麼」轉向當下「能做得更好、更安全、更可控」。

越來越多的 AI 公司開始關注「情商」,試圖讓 AI 更懂人類的情感和需求。

GPT-4.5 就是這一趨勢的代表。投入資源,研發更懂人心的 AI 依舊是行業值得關注的命題。不過,GPT-4.5 雖然展示了基于海量數據和算力的語言模型所能達到的高度,但它的表現依然顯得有些捉襟見肘。

從這個角度看,它或許更像畫上了階段性的句點,扮演了一個承上啓下的過渡角色。既是對過去幾代模型的總結與修補,也是在為下一波技術浪潮鋪路。

真正的突破,可能還得等 GPT-5 來實現。

擔心留給 OpenAI 的迭代時間不夠,别急,我有一招,虛假的版本迭代是 GPT-4.5 → GPT-5,在接下來的「數月内」,真實的發布節奏應該是 GPT-4.5 → GPT-4.6 → GPT-4.7 →…

好消息是,這一次估摸着不用再等上兩年了。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們