今天小編分享的科技經驗:Gemini 2.0來了:一個要做所有AI agent底座的超級模型,歡迎閱讀。
OpenAI 發布會進入第 5 天,帶來了 ChatGPT 與 Apple 設備的集成更新。用戶無需 ChatGPT 賬号就能在設定中啟用 Apple Intelligence 擴展,體驗 Siri 的復雜任務轉交、内容創作、iPhone 16 視覺智能模式,以及 macOS 上的快捷調用功能。
演示内容也很簡單:用戶對 Siri 說 " 讓 ChatGPT … " 後,請求即被 ChatGPT 接管;長按 iPhone 16 側邊攝像頭控制鍵打開相機,點擊 "ask" 調用 ChatGPT 分析拍攝内容;在 macOS 輕按兩下 Command 鍵激活 ChatGPT,快速分析提煉長 PDF 文檔信息。
直播僅持續 12 分鍾,由于大多早已在 Apple 的 demo 中見過,整體看來平平無奇。
而今天真正的高光時刻,來自 Google。
當地時間早晨,Sundar Pichai、Demis Hassabis 和 Koray Kavukcuoglu 聯合發文,重磅官宣 Google 迄今最強大、專門适配全新 " 代理時代 " 的下一代模型 Gemini 2.0。并正式發布該系列首個版本:Gemini 2.0 Flash 實驗版。
性能超 1.5 Pro,多模态重大突破,原生工具集成
Gemini 2.0 Flash 以低延遲和增強性能為核心,代表了 Google 在 AI 模型開發領網域的最高水平。
相比前代模型,Gemini 2.0 Flash 在保持快速響應的基礎上性能顯著提升。在 MMLU、編程、數學、推理等關鍵基準測試中不僅超越了 1.5 Pro 的表現,速度更提升了一倍。
多模态方面,2.0 Flash 實現了跨越式進展:除支持影像、視頻、音頻等多模态輸入外,還新增了多模态輸出功能,包括原生的圖文混合生成和多語言文本轉語音。
同時,模型還能原生調用 Google 搜索、執行程式代碼,并支持用戶自定義的第三方工具接入。
開發者支持:多模态實時 API
為幫助開發者構建更豐富的動态互動應用,Google 同步推出了一款新的多模态實時 API,支持實時音視頻流輸入和多工具組合調用。
目前,開發者可通過 Google AI Studio 和 Vertex AI 平台使用 2.0 Flash 實驗版的多模态輸入和文本輸出功能。而文本轉語音和原生影像生成功能暫時僅向早期合作夥伴開放,預計将在明年 1 月實現更大範圍的功能開放和模型版本更新。
全球用戶可用,新增研究利器 Deep Research
在用戶端,2.0 Flash 實驗版已整合至 Gemini 聊天助手中,全球用戶可以通過桌面和移動網頁版的模型下拉菜單訪問,移動應用集成也将于不久後推出。
Google 正在搜索中的 AI 概覽功能中測試 Gemini 2.0 的高級推理能力,以幫助解答更復雜和多步驟的問題,并計劃在明年初擴展到更多 Google 產品中。
特别值得一提的是,針對 Advanced 付費用戶,Google 今天還推出一項全新的 Deep Research功能。
它專為復雜在線研究設計,能在用戶提出問題後基于 Gemini 1.5 Pro 自動創建多步驟研究計劃,收集和分析全網相關信息,并根據反饋不斷優化,最終生成一份包含深入信息和準确來源的綜合報告。大幅簡化繁瑣耗時的研究過程,堪稱科研工作者福音,PhD 狂喜。
為 "Agent 元年 " 打造的 AI 模型
Gemini 2.0 系列模型定位鮮明,直接就是 "AI model for the agentic era" 。
Pichai 表示,過去一年 Google 一直專注于開發具備更強代理能力的模型,這類模型能深入理解用戶所處環境,具備多步預判思維,并在監督下執行相應操作。結合此前發布的 Genie 2,Google 的空間智能和世界模型願景已顯露無疑。
Hassabis 更直言 2025 年将是 "Agent 元年 ",稱 Gemini 2.0 Flash 的原生用戶界面互動、多模态推理、長上下文理解、復雜指令執行與規劃、函數調用組合以及原生工具使用等,将使其成為未來 agent 式工作的核心支持模型,進一步接近打造 " 通用助手 " 的願景。
本次發布中,Google 展示了一系列基于 2.0 Flash 新能力的原型項目進展,包括:
Project Astra:現實世界中的通用智能助手
今年 I/O 大會上,Google 首次展示了具備多模态理解能力、支持即時語音互動的 Project Astra。得益于 Gemini 2.0 的加持和 Android 測試者的反饋,最新版本的 Astra 實現了以下關鍵更新:
• 對話能力全面提升:支持多語言及混合語言交流,能更準确理解不同口音和生僻詞匯。
• 工具調用更新:原生集成 Google 搜索、Lens 和地圖功能,顯著提升了在日常生活中的實用性。
• 記憶增強:能在對話中保持更豐富的上下文信息,支持長達 10 分鍾的會話記憶,為用戶帶來更加個性化的互動體驗。
• 延遲優化:通過新一代流媒體和音頻理解技術,将響應速度提升至接近人類對話水平。
Project Mariner:浏覽器中的復雜任務助手
Project Mariner 是 Google 探索人機互動未來的實驗性 agent 產品,專注于提升浏覽器内復雜任務的處理能力。
依托 Gemini 2.0 的先進推理能力,它能夠全面理解和分析浏覽器螢幕上的各類信息,包括像素數據、文本内容、代碼片段、圖片素材和表單元素等,并通過一個實驗性的 Chrome 擴展來幫助用戶完成任務。
在衡量 agent 完成真實網頁任務能力的 WebVoyager 基準測試中,Mariner 作為單一 agent 系統取得了 83.5% 的領先成績。
不過,該項目在精确度和響應速度方面仍有提升空間。為确保使用安全,Mariner 的操作權限被嚴格限制,對于在線購物等敏感操作必須經過用戶确認,以此在安全性和效率間取得平衡。
Jules:為開發者設計的 AI 編程助手
Jules 是一款面向開發者的 AI 驅動代碼 agent,直接集成到 GitHub 工作流中。得益于 Gemini 2.0 的改進,Jules 可以在開發者的指導和監督下處理問題、制定計劃并執行代碼任務。這一項目旨在探索 AI agent 如何在開發者社區中增強生產力,并為未來跨領網域的 AI 應用鋪平道路。
遊戲 agent:打通虛拟與現實邊界
Google 還分享了一些原型的隐藏彩蛋。
例如在遊戲領網域, Gemini 2.0 支持的智能 agent 展示了其在虛拟環境中的強大适應性。不僅能實時分析和推理螢幕動作,還能為玩家提供戰略建議。
此前 DeepMind 推出的 Genie 2 能從單張影像生成無限可玩的 3D 遊戲世界,而與 Supercell 等開發商合作的遊戲 agent 則在策略和模拟遊戲中展示了出色的規則理解和問題解決能力。結合 Google 搜索功能,這些 agent 還能為玩家提供豐富的遊戲知識支持。
Gemini 2.0 的空間智能潛力
此外,Gemini 2.0 在 1.5 版本的基礎上,将空間理解能力提升到了新的高度。通過 AI Studio 推出的全新工具集,開發者可以更便捷地探索融合多模态推理的空間智能應用,這不僅體現在虛拟場景中,更可以延伸至機器人等物理世界應用領網域。
核心能力提升包括:
• 快速空間分析:能以超低延遲識别和分析影像中物體的空間位置關系
• 智能物體識别:支持圖内搜索和匹配,即便是隐藏或模糊的細節也能準确找出
• 多語言空間标注:結合空間信息實現智能多語言标注和翻譯
• 空間邏輯理解:掌握物體之間的空間關聯,比如實物和對應的影子
• 3D 空間重建:首次将 2D 照片轉換為可互動的 3D 俯視圖
在以上演示中,Gemini 2.0 展現了多個令人印象深刻的應用場景:從識别折紙動物及其投影,到匹配特定圖案的襪子,再到提供物品的雙語标注,以及分析現實場景中的問題解決方案。尤其是新引入的 3D 空間理解功能,雖仍處于早期階段,卻已展現出将平面影像轉化為立體可互動場景的潛力,為開發者開啟了更廣闊的應用想象空間。
與 OpenAI 今天小打小鬧的發布會相比,Google 帶來的 Gemini 2.0 不僅支棱起來,而且是憑實力穩穩赢了一局。
Pichai 表示,目前已有數百萬開發者在使用 Gemini 構建項目,而 Google 自身也正借助 Gemini 重塑旗下七大核心產品,用戶群體高達 20 億。
此次 Gemini 2.0 的推出标志着 AI 正從單純的信息理解向實際任務執行轉變,朝着 " 通用助手 " 的目标邁進。坐擁第六代 TPU 和新發布的量子計算機 Willow,Google 更像是扮演推動算力極限、實現生產力躍升、引領 AGI 發展的那個關鍵角色。