Gemini 2.0來了：一個要做所有AI agent底座的超級模型

今天小編分享的科技經驗：Gemini 2.0來了：一個要做所有AI agent底座的超級模型，歡迎閲讀。

OpenAI 發布會進入第 5 天，帶來了 ChatGPT 與 Apple 設備的集成更新。用户無需 ChatGPT 賬号就能在設定中啓用 Apple Intelligence 擴展，體驗 Siri 的復雜任務轉交、内容創作、iPhone 16 視覺智能模式，以及 macOS 上的快捷調用功能。

演示内容也很簡單：用户對 Siri 説 " 讓 ChatGPT … " 後，請求即被 ChatGPT 接管；長按 iPhone 16 側邊攝像頭控制鍵打開相機，點擊 "ask" 調用 ChatGPT 分析拍攝内容；在 macOS 輕按兩下 Command 鍵激活 ChatGPT，快速分析提煉長 PDF 文檔信息。

直播僅持續 12 分鍾，由于大多早已在 Apple 的 demo 中見過，整體看來平平無奇。

而今天真正的高光時刻，來自 Google。

當地時間早晨，Sundar Pichai、Demis Hassabis 和 Koray Kavukcuoglu 聯合發文，重磅官宣 Google 迄今最強大、專門适配全新 " 代理時代 " 的下一代模型 Gemini 2.0。并正式發布該系列首個版本：Gemini 2.0 Flash 實驗版。

性能超 1.5 Pro，多模态重大突破，原生工具集成

Gemini 2.0 Flash 以低延遲和增強性能為核心，代表了 Google 在 AI 模型開發領網域的最高水平。

相比前代模型，Gemini 2.0 Flash 在保持快速響應的基礎上性能顯著提升。在 MMLU、編程、數學、推理等關鍵基準測試中不僅超越了 1.5 Pro 的表現，速度更提升了一倍。

多模态方面，2.0 Flash 實現了跨越式進展：除支持影像、視頻、音頻等多模态輸入外，還新增了多模态輸出功能，包括原生的圖文混合生成和多語言文本轉語音。

同時，模型還能原生調用 Google 搜索、執行程式代碼，并支持用户自定義的第三方工具接入。

開發者支持：多模态實時 API

為幫助開發者構建更豐富的動态互動應用，Google 同步推出了一款新的多模态實時 API，支持實時音視頻流輸入和多工具組合調用。

目前，開發者可通過 Google AI Studio 和 Vertex AI 平台使用 2.0 Flash 實驗版的多模态輸入和文本輸出功能。而文本轉語音和原生影像生成功能暫時僅向早期合作夥伴開放，預計将在明年 1 月實現更大範圍的功能開放和模型版本更新。

全球用户可用，新增研究利器 Deep Research

在用户端，2.0 Flash 實驗版已整合至 Gemini 聊天助手中，全球用户可以通過桌面和移動網頁版的模型下拉菜單訪問，移動應用集成也将于不久後推出。

Google 正在搜索中的 AI 概覽功能中測試 Gemini 2.0 的高級推理能力，以幫助解答更復雜和多步驟的問題，并計劃在明年初擴展到更多 Google 產品中。

特别值得一提的是，針對 Advanced 付費用户，Google 今天還推出一項全新的 Deep Research功能。

它專為復雜在線研究設計，能在用户提出問題後基于 Gemini 1.5 Pro 自動創建多步驟研究計劃，收集和分析全網相關信息，并根據反饋不斷優化，最終生成一份包含深入信息和準确來源的綜合報告。大幅簡化繁瑣耗時的研究過程，堪稱科研工作者福音，PhD 狂喜。

為 "Agent 元年 " 打造的 AI 模型

Gemini 2.0 系列模型定位鮮明，直接就是 "AI model for the agentic era" 。

Pichai 表示，過去一年 Google 一直專注于開發具備更強代理能力的模型，這類模型能深入理解用户所處環境，具備多步預判思維，并在監督下執行相應操作。結合此前發布的 Genie 2，Google 的空間智能和世界模型願景已顯露無疑。

Hassabis 更直言 2025 年将是 "Agent 元年 "，稱 Gemini 2.0 Flash 的原生用户界面互動、多模态推理、長上下文理解、復雜指令執行與規劃、函數調用組合以及原生工具使用等，将使其成為未來 agent 式工作的核心支持模型，進一步接近打造 " 通用助手 " 的願景。

本次發布中，Google 展示了一系列基于 2.0 Flash 新能力的原型項目進展，包括：

Project Astra：現實世界中的通用智能助手

今年 I/O 大會上，Google 首次展示了具備多模态理解能力、支持即時語音互動的 Project Astra。得益于 Gemini 2.0 的加持和 Android 測試者的反饋，最新版本的 Astra 實現了以下關鍵更新：

• 對話能力全面提升：支持多語言及混合語言交流，能更準确理解不同口音和生僻詞匯。

• 工具調用更新：原生集成 Google 搜索、Lens 和地圖功能，顯著提升了在日常生活中的實用性。

• 記憶增強：能在對話中保持更豐富的上下文信息，支持長達 10 分鍾的會話記憶，為用户帶來更加個性化的互動體驗。

• 延遲優化：通過新一代流媒體和音頻理解技術，将響應速度提升至接近人類對話水平。

Project Mariner：浏覽器中的復雜任務助手

Project Mariner 是 Google 探索人機互動未來的實驗性 agent 產品，專注于提升浏覽器内復雜任務的處理能力。

依托 Gemini 2.0 的先進推理能力，它能夠全面理解和分析浏覽器螢幕上的各類信息，包括像素數據、文本内容、代碼片段、圖片素材和表單元素等，并通過一個實驗性的 Chrome 擴展來幫助用户完成任務。

在衡量 agent 完成真實網頁任務能力的 WebVoyager 基準測試中，Mariner 作為單一 agent 系統取得了 83.5% 的領先成績。

不過，該項目在精确度和響應速度方面仍有提升空間。為确保使用安全，Mariner 的操作權限被嚴格限制，對于在線購物等敏感操作必須經過用户确認，以此在安全性和效率間取得平衡。

Jules：為開發者設計的 AI 編程助手

Jules 是一款面向開發者的 AI 驅動代碼 agent，直接集成到 GitHub 工作流中。得益于 Gemini 2.0 的改進，Jules 可以在開發者的指導和監督下處理問題、制定計劃并執行代碼任務。這一項目旨在探索 AI agent 如何在開發者社區中增強生產力，并為未來跨領網域的 AI 應用鋪平道路。

遊戲 agent：打通虛拟與現實邊界

Google 還分享了一些原型的隐藏彩蛋。

例如在遊戲領網域， Gemini 2.0 支持的智能 agent 展示了其在虛拟環境中的強大适應性。不僅能實時分析和推理螢幕動作，還能為玩家提供戰略建議。

此前 DeepMind 推出的 Genie 2 能從單張影像生成無限可玩的 3D 遊戲世界，而與 Supercell 等開發商合作的遊戲 agent 則在策略和模拟遊戲中展示了出色的規則理解和問題解決能力。結合 Google 搜索功能，這些 agent 還能為玩家提供豐富的遊戲知識支持。

Gemini 2.0 的空間智能潛力

此外，Gemini 2.0 在 1.5 版本的基礎上，将空間理解能力提升到了新的高度。通過 AI Studio 推出的全新工具集，開發者可以更便捷地探索融合多模态推理的空間智能應用，這不僅體現在虛拟場景中，更可以延伸至機器人等物理世界應用領網域。

核心能力提升包括：

• 快速空間分析：能以超低延遲識别和分析影像中物體的空間位置關系

• 智能物體識别：支持圖内搜索和匹配，即便是隐藏或模糊的細節也能準确找出

• 多語言空間标注：結合空間信息實現智能多語言标注和翻譯

• 空間邏輯理解：掌握物體之間的空間關聯，比如實物和對應的影子

• 3D 空間重建：首次将 2D 照片轉換為可互動的 3D 俯視圖

在以上演示中，Gemini 2.0 展現了多個令人印象深刻的應用場景：從識别折紙動物及其投影，到匹配特定圖案的襪子，再到提供物品的雙語标注，以及分析現實場景中的問題解決方案。尤其是新引入的 3D 空間理解功能，雖仍處于早期階段，卻已展現出将平面影像轉化為立體可互動場景的潛力，為開發者開啓了更廣闊的應用想象空間。

與 OpenAI 今天小打小鬧的發布會相比，Google 帶來的 Gemini 2.0 不僅支棱起來，而且是憑實力穩穩赢了一局。

Pichai 表示，目前已有數百萬開發者在使用 Gemini 構建項目，而 Google 自身也正借助 Gemini 重塑旗下七大核心產品，用户群體高達 20 億。

此次 Gemini 2.0 的推出标志着 AI 正從單純的信息理解向實際任務執行轉變，朝着 " 通用助手 " 的目标邁進。坐擁第六代 TPU 和新發布的量子計算機 Willow，Google 更像是扮演推動算力極限、實現生產力躍升、引領 AGI 發展的那個關鍵角色。