OpenAI和Google同日地震級更新：人間一夜，AGI 臨近

今天小編分享的科技經驗：OpenAI和Google同日地震級更新：人間一夜，AGI 臨近，歡迎閱讀。

文 | 鲸選 AI

2024 年，Google 想奪回 AI 場子，但總是被 OpenAI 攪局。

每次一宣布某日要開發布會，OpenAI 就會提前發布實力更強的產品。導致每次 Google 的 AI 產品發布會都特别尴尬。

2025 年的 Google 學聰明了，發布 AI 產品不再大張旗鼓，而是偷偷滴直接上線。這次今晚又沒任何預熱，Google 直接上線了 Gemini 2.5 Pro 模型。

這是一款會推理的混合大模型，實力超越 GPT4.5 和 Grok3 ，最大特點是能夠模仿人類快慢思考，這不是堪比 GPT-5 前奏嗎？而它就這麼不聲不響上線了。

就在大家以為盛譽會屬于 Google 時，OpenAI 又在推特上宣布：

太平洋時間上午 11 點直播。最終 OpenAI 發布了 GPT-4o image generation，影像生成技術模型。

具有媲美人類攝影的出圖質量，随心所欲的構圖以及細節處理，超乎尋常的圖文理解，以及任意的圖中文字和 LOGO 生成的特性，也是在 X 上引起一片歡呼。

深夜 2 點多，鲸哥還沒睡覺，看到朋友圈很多人發北京地震了。于是我寫下如此朋友圈：

并沒有感受到北京地震，但此刻，正在被 Google 和 OpenAI 天雷勾地火的競争震撼。熟睡中的普羅大眾，并不知道在這一夜中，在通往 AGI 之路上，人類又躍進了一大步！

無心睡眠，向 AGI 前進一大步 Gemini 2.5 炸裂出場，首個類人大模型

Gemini 2.5 Pro 實驗版這次很炸裂，Gemini 2.5 号稱可以處理更復雜的編程、科學和數學問題，并支持更具有情境感知能力的智能體。

這個新的 " 思考模型 " 在 LMArena 上以顯著優勢領先，并在數學、科學和編碼基準測試中擊敗了 DeepSeek-R1、Grok 3 和 Claude 3.7。也幾乎全面優于 OPenAI 家的兩款模型— o3-mini 和 GPT4.5。

Gemini 2.5 Pro 現在在競技排行榜上位居第一——這是有史以來最大的分數跳躍（比 Grok-3/GPT-4.5 高出 40 分）。

配備 100 萬 token 的上下文（即将推出 200 萬），能夠處理多模态數據，并且經過 vibe coding 認證，可以僅通過一個提示構建整個遊戲。這是 Gemini 2.5 的神奇之處。

更重要的是，當你向 Gemini 2.5 提問時，它會在回答之前通過思考進行推理，模仿人類處理思想的方式—逐步接近問題，細化潛在解決方案，并選擇最佳方案。

鲸哥測試生成 " 近 3 年國内直播帶貨 KOL 的動态演示頁面 "，2.5 Pro 飛速生成了相關代碼。

這裡就需要提到 Google AI 的亮眼好處，就是他可以調用之前的 Flash 2.0 就已經融合的 Google 系工具，比如分析 YouTube 視頻、輸出内容到 Docs。這波代碼演示，生成後也直接調用 Colab 演示。

以下是 2.5 Pro 生成的主播熱度動态演示效果，側重是代碼到生成的過程，至于内容準确性并沒有體現，但整體還可以參考。畢竟 2023 年的小楊哥還沒出事，還是直播帶貨領網域的絕對一哥。

同時，我們測試了 2.5 Pro 的深度推理能力，要求其生成一份具身智能報告。這份報告不是那種很虛、不能用的内容，而是具有一定的可讀性。

OpenAI 殺死攝影師

在 OpenAI 展示的官方案例 AI 生圖中，第一個圖就足夠震撼。

如果不明說，恐怕任何人都猜不到，這張圖是 AI 生成的。畢竟反射畫面和密密麻麻們的文字，都在說 AI 不可能這麼神奇！

但實際上，這就是 4o 生成的 AI 圖片，OpenAI 放出它的提示詞如下。

這是用手機拍攝的玻璃白板的廣角影像，拍攝地點是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫字，她身穿一件印有大型 OpenAI 标志的 T 恤。筆迹看起來很自然，但有點凌亂，我們可以看到攝影師的倒影。

更神奇的是第二張圖片轉了人物朝向，生成的影像還是毫無破綻，也放出來震撼下大家。

如果你沒有 GPT Plus，那麼用 GPT 免費的圖片生成功能，其實已經能秒殺大部分文生圖產品了。這是鲸哥直接用上面同款提示詞生成的圖片。

同時，鲸哥也用 Google 2.0 Flash 模型，同款提示詞生成了同樣的圖。可以看到 Google 不太有審美，手部細節也崩了。

但 OpenAI 是不是為了官網案例特調，還需要以後全量上線模型，大家長期測試。

另外，4o 的影像生成指令也足夠強大，很多系統在處理約 5-8 個對象時會遇到困難，而 GPT ‑ 4o 可以處理多達 10-20 個不同的對象。下圖就是 4o 在同一張圖上，生成了 16 個物體，每個都準确生成了用戶表達的内容，Amazing！

當然，對于類似 Google 2.0 Flash 的圖片編輯能力，4o 也是不在話下。可謂精準狙擊了 Google 剛火出圈的圖片編輯能力。

我們即将接近 AGI 了嗎？

OpenAI 同時宣布，從今天起，ChatGPT 和 Sora 的所有 Plus、Pro、Team 和 Free 用戶都可以開始使用 4o 影像功能。

山姆奧特曼則表示，"ChatGPT 中影像的新版本仍在推出中，所以如果今天沒有獲得很好的影像，請稍後再試 "。應該預示着将繼續整合多模态模型，以及產品端的融合。

有網友評論，4o 影像功能超越了數百家 AI 影像公司。委實，甚至一些攝像和設計師等影像工作的飯碗，也将不保。

而對于 Google 來說，Gemini 席卷的各種基準測試，在證明他的強大。實際體驗中，應該快速回答的問題很快回答，需要深度推理的問題也非常快速執行，一份報告、一份遊戲生成基本都在 60 秒以内。

鲸哥驚豔于它的速度，更驚訝這種融合模型帶來的體驗。不會再出現問個簡單問題，AI 也去深度推理了。當然，2.5 還不能生成圖片，也許下一步 3.0，就會帶來這一能力。

Google 這波拉響了矽谷的 AI 軍備競賽，此前 Anthropic CEO 稱，還有更強的大模型沒有放出，預計也會近期推出，防止 Claude 3.7 無法維持領先。而 OpenAI 在 GPT 4.5 發布會中，山姆奧特曼都沒有出現，也許意味着新的模型也會近期發布。

在這場 OpenAI 和 Google 對決的主角戲中，沒想到最着急的是埃隆馬斯克，他在 X 上發了多條内容，表明 Grok 是更好的那一個模型。

馬斯克發布這張圖時說道：這是很重要的區别，嘲諷其他家模型撒謊和追求政治正确，而 Grok 則追求真理。

馬斯克的出現，為今晚這場競争增添了趣味因素。

就在 DeepSeek V3 剛剛拿回的頭牌中，Google 和 OpenAI 展示了強大的競争實力，而大家在你追我趕中，進一步拉近了 AGI 的夢想。

也許就在不遠的某個夜晚中，AGI 就會突然降臨！