今天小編分享的科學經驗:DeepSeek逼出谷歌新推理模型:40分優勢超GPT4.5登頂競技場,支持原生多模态,但依然敗給了“竹竿問題”,歡迎閲讀。
又雙叒,搶在 OpenAI 直播之前,谷歌 Gemini 2.5 系列來了。
首個版本 Pro Experimental 一登場就搶下大模型競技場第一名,并且整整比 GPT-4.5 高出 40 分!
Gemini 2.5 同樣是推理模型,用 Jeff Dean 的説法是:
這是我們最智能的模型,具有令人印象深刻的高級推理和編碼能力。
Be like,給出一段提示詞:
幫我制作一款吸引人的無盡跑酷遊戲。螢幕上要有關鍵操作説明。使用 p5js,不要用 HTML。我喜歡像素風格的恐龍和有趣的背景。
1 分鍾左右,就能得到:
谷歌介紹,相較于 Gemini 2.0 Flash Thinking 這個谷歌首個推理模型,Gemini 2.5 在基礎模型和後訓練技術上都有改進。
不僅是在大模型競技場上一舉拿下高分,在各種推理、數學、科學、編程基準上,Gemini 2.5 Pro 都表現出色,屬于是編程能跟 Claude 3.7 Sonnet 掰手腕,數學能跟 Grok 3 相媲美。
更詳細測試結果看這裏:
Gemini 2.5 Pro 的上下文視窗是 1M tokens,并且支持原生多模态:可以理解龐大數據集并處理來自不同信息源的復雜問題,包括文本、音頻、影像、視頻,甚至是整個代碼庫。
在推理能力之外,谷歌官方還強調了一把 Gemini 2.5 Pro 的編程性能:
2.5 pro 擅長創造視覺上引人注目的 Web 應用程式和智能體代碼。
谷歌 DeepMind 研究員們也釋出了更多案例,比如把 " 六邊形内旋轉小球 " 這事整得更加酷炫:
Jeff Dean 則興奮地放出了一個編程 + 數學的用例,還説:
我記起了小時候第一次了解到曼德布羅特集時的興奮之情。
(曼德布羅特集:一種在復平面上形成的分形集合)
p.s. 距離谷歌上新 Gemini 2.0 家族,也不過一個多月時間,怕不是讓 DeepSeek 給逼急了(doge)。
目前,Gemini 2.5 Pro 已經面向 Gemini Advanced 付費用户開放,開放人員也可以在 Google AI Studio 中試用。谷歌表示,未來幾周内還将在 Vertex AI 上推出該模型。
不過,當我們拿最新大模型難題" 竹竿問題 "測試 Gemini 2.5 Pro 時,它并沒能順利通關。
試玩地址:
http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25
參考鏈接:
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
最後一周!2025 年值得關注的 AIGC 企業產品 報名即将截止
下一個 AI" 國產之光 " 将會是誰?歡迎申報獎項!
本次評選結果将于 4 月 16 日中國 AIGC 產業峰會上公布。
一鍵星标
科技前沿進展每日見