今天小編分享的科技經驗:OpenAI和Google同日地震級更新:人間一夜,AGI 臨近,歡迎閱讀。
文 | 鲸選 AI
2024 年,Google 想奪回 AI 場子,但總是被 OpenAI 攪局。
每次一宣布某日要開發布會,OpenAI 就會提前發布實力更強的產品。導致每次 Google 的 AI 產品發布會都特别尴尬。
2025 年的 Google 學聰明了,發布 AI 產品不再大張旗鼓,而是偷偷滴直接上線。這次今晚又沒任何預熱,Google 直接上線了 Gemini 2.5 Pro 模型。
這是一款會推理的混合大模型,實力超越 GPT4.5 和 Grok3 ,最大特點是能夠模仿人類快慢思考,這不是堪比 GPT-5 前奏嗎?而它就這麼不聲不響上線了。
就在大家以為盛譽會屬于 Google 時,OpenAI 又在推特上宣布:
太平洋時間上午 11 點直播。最終 OpenAI 發布了 GPT-4o image generation,影像生成技術模型。
具有媲美人類攝影的出圖質量,随心所欲的構圖以及細節處理,超乎尋常的圖文理解,以及任意的圖中文字和 LOGO 生成的特性,也是在 X 上引起一片歡呼。
深夜 2 點多,鲸哥還沒睡覺,看到朋友圈很多人發北京地震了。于是我寫下如此朋友圈:
并沒有感受到北京地震,但此刻,正在被 Google 和 OpenAI 天雷勾地火的競争震撼。熟睡中的普羅大眾,并不知道在這一夜中,在通往 AGI 之路上,人類又躍進了一大步!
無心睡眠,向 AGI 前進一大步 Gemini 2.5 炸裂出場,首個類人大模型
Gemini 2.5 Pro 實驗版這次很炸裂,Gemini 2.5 号稱可以處理更復雜的編程、科學和數學問題,并支持更具有情境感知能力的智能體。
這個新的 " 思考模型 " 在 LMArena 上以顯著優勢領先,并在數學、科學和編碼基準測試中擊敗了 DeepSeek-R1、Grok 3 和 Claude 3.7。也幾乎全面優于 OPenAI 家的兩款模型— o3-mini 和 GPT4.5。
Gemini 2.5 Pro 現在在競技排行榜上位居第一——這是有史以來最大的分數跳躍(比 Grok-3/GPT-4.5 高出 40 分)。
配備 100 萬 token 的上下文(即将推出 200 萬),能夠處理多模态數據,并且經過 vibe coding 認證,可以僅通過一個提示構建整個遊戲。這是 Gemini 2.5 的神奇之處。
更重要的是,當你向 Gemini 2.5 提問時,它會在回答之前通過思考進行推理,模仿人類處理思想的方式—逐步接近問題,細化潛在解決方案,并選擇最佳方案。
鲸哥測試生成 " 近 3 年國内直播帶貨 KOL 的動态演示頁面 ",2.5 Pro 飛速生成了相關代碼。
這裡就需要提到 Google AI 的亮眼好處,就是他可以調用之前的 Flash 2.0 就已經融合的 Google 系工具,比如分析 YouTube 視頻、輸出内容到 Docs。這波代碼演示,生成後也直接調用 Colab 演示。
以下是 2.5 Pro 生成的主播熱度動态演示效果,側重是代碼到生成的過程,至于内容準确性并沒有體現,但整體還可以參考。畢竟 2023 年的小楊哥還沒出事,還是直播帶貨領網域的絕對一哥。
同時,我們測試了 2.5 Pro 的深度推理能力,要求其生成一份具身智能報告。這份報告不是那種很虛、不能用的内容,而是具有一定的可讀性。
OpenAI 殺死攝影師
在 OpenAI 展示的官方案例 AI 生圖中,第一個圖就足夠震撼。
如果不明說,恐怕任何人都猜不到,這張圖是 AI 生成的。畢竟反射畫面和密密麻麻們的文字,都在說 AI 不可能這麼神奇!
但實際上,這就是 4o 生成的 AI 圖片,OpenAI 放出它的提示詞如下。
這是用手機拍攝的玻璃白板的廣角影像,拍攝地點是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫字,她身穿一件印有大型 OpenAI 标志的 T 恤。筆迹看起來很自然,但有點凌亂,我們可以看到攝影師的倒影。
更神奇的是第二張圖片轉了人物朝向,生成的影像還是毫無破綻,也放出來震撼下大家。
如果你沒有 GPT Plus,那麼用 GPT 免費的圖片生成功能,其實已經能秒殺大部分文生圖產品了。這是鲸哥直接用上面同款提示詞生成的圖片。
同時,鲸哥也用 Google 2.0 Flash 模型,同款提示詞生成了同樣的圖。可以看到 Google 不太有審美,手部細節也崩了。
但 OpenAI 是不是為了官網案例特調,還需要以後全量上線模型,大家長期測試。
另外,4o 的影像生成指令也足夠強大,很多系統在處理約 5-8 個對象時會遇到困難,而 GPT ‑ 4o 可以處理多達 10-20 個不同的對象。下圖就是 4o 在同一張圖上,生成了 16 個物體,每個都準确生成了用戶表達的内容,Amazing!
當然,對于類似 Google 2.0 Flash 的圖片編輯能力,4o 也是不在話下。可謂精準狙擊了 Google 剛火出圈的圖片編輯能力。
我們即将接近 AGI 了嗎?
OpenAI 同時宣布,從今天起,ChatGPT 和 Sora 的所有 Plus、Pro、Team 和 Free 用戶都可以開始使用 4o 影像功能。
山姆奧特曼則表示,"ChatGPT 中影像的新版本仍在推出中,所以如果今天沒有獲得很好的影像,請稍後再試 "。應該預示着将繼續整合多模态模型,以及產品端的融合。
有網友評論,4o 影像功能超越了數百家 AI 影像公司。委實,甚至一些攝像和設計師等影像工作的飯碗,也将不保。
而對于 Google 來說,Gemini 席卷的各種基準測試,在證明他的強大。實際體驗中,應該快速回答的問題很快回答,需要深度推理的問題也非常快速執行,一份報告、一份遊戲生成基本都在 60 秒以内。
鲸哥驚豔于它的速度,更驚訝這種融合模型帶來的體驗。不會再出現問個簡單問題,AI 也去深度推理了。當然,2.5 還不能生成圖片,也許下一步 3.0,就會帶來這一能力。
Google 這波拉響了矽谷的 AI 軍備競賽,此前 Anthropic CEO 稱,還有更強的大模型沒有放出,預計也會近期推出,防止 Claude 3.7 無法維持領先。而 OpenAI 在 GPT 4.5 發布會中,山姆奧特曼都沒有出現,也許意味着新的模型也會近期發布。
在這場 OpenAI 和 Google 對決的主角戲中,沒想到最着急的是埃隆馬斯克,他在 X 上發了多條内容,表明 Grok 是更好的那一個模型。
馬斯克發布這張圖時說道:這是很重要的區别,嘲諷其他家模型撒謊和追求政治正确,而 Grok 則追求真理。
馬斯克的出現,為今晚這場競争增添了趣味因素。
就在 DeepSeek V3 剛剛拿回的頭牌中,Google 和 OpenAI 展示了強大的競争實力,而大家在你追我趕中,進一步拉近了 AGI 的夢想。
也許就在不遠的某個夜晚中,AGI 就會突然降臨!