Gemini 2.0来了：一个要做所有AI agent底座的超级模型

今天小编分享的科技经验：Gemini 2.0来了：一个要做所有AI agent底座的超级模型，欢迎阅读。

OpenAI 发布会进入第 5 天，带来了 ChatGPT 与 Apple 设备的集成更新。用户无需 ChatGPT 账号就能在設定中启用 Apple Intelligence 扩展，体验 Siri 的复杂任务转交、内容创作、iPhone 16 视觉智能模式，以及 macOS 上的快捷调用功能。

演示内容也很简单：用户对 Siri 说 " 让 ChatGPT … " 后，请求即被 ChatGPT 接管；长按 iPhone 16 侧边摄像头控制键打开相机，点击 "ask" 调用 ChatGPT 分析拍摄内容；在 macOS 輕按兩下 Command 键激活 ChatGPT，快速分析提炼长 PDF 文档信息。

直播仅持续 12 分钟，由于大多早已在 Apple 的 demo 中见过，整体看来平平无奇。

而今天真正的高光时刻，来自 Google。

当地时间早晨，Sundar Pichai、Demis Hassabis 和 Koray Kavukcuoglu 联合发文，重磅官宣 Google 迄今最强大、专门适配全新 " 代理时代 " 的下一代模型 Gemini 2.0。并正式发布该系列首个版本：Gemini 2.0 Flash 实验版。

性能超 1.5 Pro，多模态重大突破，原生工具集成

Gemini 2.0 Flash 以低延迟和增强性能为核心，代表了 Google 在 AI 模型开发领網域的最高水平。

相比前代模型，Gemini 2.0 Flash 在保持快速响应的基础上性能显著提升。在 MMLU、编程、数学、推理等关键基准测试中不仅超越了 1.5 Pro 的表现，速度更提升了一倍。

多模态方面，2.0 Flash 实现了跨越式进展：除支持影像、视频、音频等多模态输入外，还新增了多模态输出功能，包括原生的图文混合生成和多语言文本转语音。

同时，模型还能原生调用 Google 搜索、执行程式代码，并支持用户自定义的第三方工具接入。

开发者支持：多模态实时 API

为帮助开发者构建更丰富的动态互動应用，Google 同步推出了一款新的多模态实时 API，支持实时音视频流输入和多工具组合调用。

目前，开发者可通过 Google AI Studio 和 Vertex AI 平台使用 2.0 Flash 实验版的多模态输入和文本输出功能。而文本转语音和原生影像生成功能暂时仅向早期合作伙伴开放，预计将在明年 1 月实现更大范围的功能开放和模型版本更新。

全球用户可用，新增研究利器 Deep Research

在用户端，2.0 Flash 实验版已整合至 Gemini 聊天助手中，全球用户可以通过桌面和移动网页版的模型下拉菜单访问，移动应用集成也将于不久后推出。

Google 正在搜索中的 AI 概览功能中测试 Gemini 2.0 的高级推理能力，以帮助解答更复杂和多步骤的问题，并计划在明年初扩展到更多 Google 产品中。

特别值得一提的是，针对 Advanced 付费用户，Google 今天还推出一项全新的 Deep Research功能。

它专为复杂在线研究设计，能在用户提出问题后基于 Gemini 1.5 Pro 自动创建多步骤研究计划，收集和分析全网相关信息，并根据反馈不断优化，最终生成一份包含深入信息和准确来源的综合报告。大幅简化繁琐耗时的研究过程，堪称科研工作者福音，PhD 狂喜。

为 "Agent 元年 " 打造的 AI 模型

Gemini 2.0 系列模型定位鲜明，直接就是 "AI model for the agentic era" 。

Pichai 表示，过去一年 Google 一直专注于开发具备更强代理能力的模型，这类模型能深入理解用户所处环境，具备多步预判思维，并在监督下执行相应操作。结合此前发布的 Genie 2，Google 的空间智能和世界模型愿景已显露无疑。

Hassabis 更直言 2025 年将是 "Agent 元年 "，称 Gemini 2.0 Flash 的原生用户界面互動、多模态推理、长上下文理解、复杂指令执行与规划、函数调用组合以及原生工具使用等，将使其成为未来 agent 式工作的核心支持模型，进一步接近打造 " 通用助手 " 的愿景。

本次发布中，Google 展示了一系列基于 2.0 Flash 新能力的原型项目进展，包括：

Project Astra：现实世界中的通用智能助手

今年 I/O 大会上，Google 首次展示了具备多模态理解能力、支持即时语音互動的 Project Astra。得益于 Gemini 2.0 的加持和 Android 测试者的反馈，最新版本的 Astra 实现了以下关键更新：

• 对话能力全面提升：支持多语言及混合语言交流，能更准确理解不同口音和生僻词汇。

• 工具调用更新：原生集成 Google 搜索、Lens 和地图功能，显著提升了在日常生活中的实用性。

• 记忆增强：能在对话中保持更丰富的上下文信息，支持长达 10 分钟的会话记忆，为用户带来更加个性化的互動体验。

• 延迟优化：通过新一代流媒体和音频理解技术，将响应速度提升至接近人类对话水平。

Project Mariner：浏览器中的复杂任务助手

Project Mariner 是 Google 探索人机互動未来的实验性 agent 产品，专注于提升浏览器内复杂任务的处理能力。

依托 Gemini 2.0 的先进推理能力，它能够全面理解和分析浏览器螢幕上的各类信息，包括像素数据、文本内容、代码片段、图片素材和表单元素等，并通过一个实验性的 Chrome 扩展来帮助用户完成任务。

在衡量 agent 完成真实网页任务能力的 WebVoyager 基准测试中，Mariner 作为单一 agent 系统取得了 83.5% 的领先成绩。

不过，该项目在精确度和响应速度方面仍有提升空间。为确保使用安全，Mariner 的操作权限被严格限制，对于在线购物等敏感操作必须经过用户确认，以此在安全性和效率间取得平衡。

Jules：为开发者设计的 AI 编程助手

Jules 是一款面向开发者的 AI 驱动代码 agent，直接集成到 GitHub 工作流中。得益于 Gemini 2.0 的改进，Jules 可以在开发者的指导和监督下处理问题、制定计划并执行代码任务。这一项目旨在探索 AI agent 如何在开发者社区中增强生产力，并为未来跨领網域的 AI 应用铺平道路。

游戏 agent：打通虚拟与现实边界

Google 还分享了一些原型的隐藏彩蛋。

例如在游戏领網域， Gemini 2.0 支持的智能 agent 展示了其在虚拟环境中的强大适应性。不仅能实时分析和推理螢幕动作，还能为玩家提供战略建议。

此前 DeepMind 推出的 Genie 2 能从单张影像生成无限可玩的 3D 游戏世界，而与 Supercell 等开发商合作的游戏 agent 则在策略和模拟游戏中展示了出色的规则理解和问题解决能力。结合 Google 搜索功能，这些 agent 还能为玩家提供丰富的游戏知识支持。

Gemini 2.0 的空间智能潜力

此外，Gemini 2.0 在 1.5 版本的基础上，将空间理解能力提升到了新的高度。通过 AI Studio 推出的全新工具集，开发者可以更便捷地探索融合多模态推理的空间智能应用，这不仅体现在虚拟场景中，更可以延伸至机器人等物理世界应用领網域。

核心能力提升包括：

• 快速空间分析：能以超低延迟识别和分析影像中物体的空间位置关系

• 智能物体识别：支持图内搜索和匹配，即便是隐藏或模糊的细节也能准确找出

• 多语言空间标注：结合空间信息实现智能多语言标注和翻译

• 空间逻辑理解：掌握物体之间的空间关联，比如实物和对应的影子

• 3D 空间重建：首次将 2D 照片转换为可互動的 3D 俯视图

在以上演示中，Gemini 2.0 展现了多个令人印象深刻的应用场景：从识别折纸动物及其投影，到匹配特定图案的袜子，再到提供物品的双语标注，以及分析现实场景中的问题解决方案。尤其是新引入的 3D 空间理解功能，虽仍处于早期阶段，却已展现出将平面影像转化为立体可互動场景的潜力，为开发者开启了更广阔的应用想象空间。

与 OpenAI 今天小打小闹的发布会相比，Google 带来的 Gemini 2.0 不仅支棱起来，而且是凭实力稳稳赢了一局。

Pichai 表示，目前已有数百万开发者在使用 Gemini 构建项目，而 Google 自身也正借助 Gemini 重塑旗下七大核心产品，用户群体高达 20 亿。

此次 Gemini 2.0 的推出标志着 AI 正从单纯的信息理解向实际任务执行转变，朝着 " 通用助手 " 的目标迈进。坐拥第六代 TPU 和新发布的量子计算机 Willow，Google 更像是扮演推动算力极限、实现生产力跃升、引领 AGI 发展的那个关键角色。