谷歌推出新一代AI模型Gemini 2.0 Flash，支持生成影像，全面转向Agent

今天小编分享的互联网经验：谷歌推出新一代AI模型Gemini 2.0 Flash，支持生成影像，全面转向Agent，欢迎阅读。

作者：赵雨荷

来源：硬 AI

为应对 OpenAI 此前推出的众多新产品，谷歌周三推出下一代重要人工智能模型 Gemini 2.0 Flash，可以原生生成影像和音频，同时支持文本生成。2.0 Flash 还可以使用第三方应用程式和服务，使其能够访问谷歌搜索、执行代码等功能。

从周三起，2.0 Flash 的实验版本将通过 Gemini API 和谷歌的 AI 开发平台（AI Studio 和 Vertex AI）提供。然而，音频和影像生成功能仅对 " 早期接入合作伙伴 " 开放，并计划在明年 1 月全面推出。

未来几个月内，谷歌表示将推出 2.0 Flash 的不同版本，用于 Android Studio、Chrome DevTools、Firebase、Gemini Code Assist 等产品。

Flash 的更新

第一代 Flash（1.5 Flash）只能生成文本，且并未设计用于特别高要求的工作负载。据谷歌称，新版本 2.0 Flash 模型更具多样性，部分原因是它能够调用工具（如搜索）并与外部 API 互動。

谷歌 Gemini 模型产品负责人 Tulsee Doshi 表示，

" 我们知道，Flash 因其在速度和性能上的良好平衡而备受开发者喜爱。在 2.0 Flash 中，它依然保持了速度的优势，但现在更加强大。"

谷歌声称，根据公司内部测试，2.0 Flash 在某些基准测试中的运行速度是 Gemini 1.5 Pro 模型的两倍，并在编码和影像分析等领網域 " 显著 " 改进。事实上，该公司表示，2.0 Flash 凭借其更好的数学性能和 " 事实性 " 取代了 1.5 Pro，成为 Gemini 的旗舰模型。

2.0 Flash 可以生成并修改影像，同时支持文本生成。该模型还可以读取照片、视频以及音频录制内容，从而回答与这些内容相关的问题。

音频生成是 2.0 Flash 的另一个关键功能，Doshi 将其描述为 " 可操控 " 和 " 可定制 "。例如，该模型可以用八种针对不同口音和语言优化的声音来朗读文本。

不过，谷歌并未提供 2.0 Flash 生成的影像或音频样本，因此无法判断其输出质量与其他模型的比较。

谷歌表示，它正在使用其 SynthID 技术为 2.0 Flash 生成的所有音频和影像添加水印。在支持 SynthID 的軟體和平台（即部分谷歌产品）上，该模型的输出将被标记为合成内容。

此举旨在缓解人们对滥用的担忧。事实上，" 深度伪造 "（deepfake）正成为日益严重的威胁。据身份验证服务 Sumsub 的数据，从 2023 年到 2024 年，全球检测到的深度伪造数量增长了四倍。

多模态 API

2.0 Flash 的生产力版本将于明年 1 月推出。但与此同时，谷歌推出了一个 API，名为 Multimodal Live API，以帮助开发者构建具有实时音频和视频流功能的应用程式。

通过 Multimodal Live API，谷歌表示开发者可以创建具有来自摄像头或螢幕音频和视频输入的实时多模态应用程式。该 API 支持工具集成以完成任务，并能够处理 " 自然对话模式 "，例如打断——与 OpenAI 的实时 API 功能类似。

Multimodal Live API 已于周三上午全面开放使用。

AI 代理操作网页

谷歌周三还发布了其首个能够在网页上执行操作的 AI 代理，这是由其 DeepMind 部门推出的研究模型，名为 Project Mariner。该代理由 Gemini 驱动，能够接管用户的 Chrome 浏览器，移动螢幕上的游標，点击按钮，填写表单，从而像人类一样使用和浏览网站。

谷歌表示，从周三开始，这款 AI 代理将首先面向一小部分预先选定的测试者推出。

媒体报道，谷歌正在继续尝试新的方式，让 Gemini 能够读取、总结甚至使用网站。一位谷歌高管告诉媒体，这标志着一种 " 全新的用户体验范式转变 "：用户不再直接与网站互動，而是通过生成式 AI 系统完成这些互動。

分析认为，这种转变可能会影响数百万家企业——从 TechCrunch 等出版商到沃尔玛等零售商——这些企业一直以来都依赖谷歌将真实用户引导到他们的网站。

在与科技媒体 TechCrunch 的演示中，谷歌实验室总监 Jaclyn Konzelmann 展示了 Project Mariner 的工作原理。

在 Chrome 浏览器中安装一个扩展程式后，浏览器右侧会弹出一个聊天視窗。用户可以指示代理完成诸如 " 根据这份清单在超市创建购物车 " 之类的任务。

接着，AI 代理会导航到一家超市的网站，然后搜索并将商品添加到虚拟购物车中。一个显而易见的问题是代理运行速度较慢——每次游標移动之间约有 5 秒的延迟。有时，代理会中断任务并返回到聊天視窗，要求澄清某些物品（比如需要多少胡萝卜等）。

谷歌的代理无法完成结账，因为它不会填写信用卡号或账单信息。此外，Project Mariner 也不会为用户接受 cookies，或签署服务条款協定。谷歌表示，这是出于对用户更好控制的考虑，故意不允许代理执行这些操作。

在后台，谷歌的代理会截取用户浏览器視窗的截图（用户需在服务条款中同意这一点），并将其发送到云端的 Gemini 进行处理。然后，Gemini 会将导航网页的指令发送回用户的电腦。

Project Mariner 还可以用于搜索班機和酒店、购物家居用品、查找食谱以及其他目前需要用户点击网页才能完成的任务。

不过，Project Mariner 仅能在 Chrome 浏览器的最前端活动标签页上工作，这意味着在代理后台运行时，用户无法用电腦做其他事情，而是需要观看 Gemini 慢慢地点击操作。谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 表示，这是一个非常有意的决定，目的是让用户知道谷歌的 AI 代理正在做什么。

Konzelmann 表示，

" [ Project Mariner ] 标志着我们现在看到的一种根本性的新用户体验范式转变。我们需要探索一种正确的方法，让这一切改变用户与网页互动的方式，同时也改变出版商为用户以及代理创建体验的方式。"

AI 代理做研究、写代码、熟悉游戏

除了 Project Mariner，谷歌周三还推出了几款专门用于特定任务的新 AI 代理。

其中一个 AI 代理 Deep Research 旨在通过创建多步骤研究计划帮助用户研究复杂研究。它似乎是 OpenAI 的 o1 的竞争对手，后者也能够进行多步骤推理。然而，谷歌发言人指出，该代理并不用于解决数学和逻辑推理问题、编写代码或进行数据分析。Deep Research 现已在 Gemini Advanced 中推出，并将在 2025 年登陆 Gemini 应用。

当收到一个困难或规模较大的问题时，Deep Research 会创建一个多步骤的行动计划来回答问题。在用户批准计划后，Deep Research 需要几分钟的时间来回答问题、搜索网页，然后生成一份详细的研究报告。

另一个新 AI 代理 Jules 旨在帮助开发者完成代码任务。它直接集成到 GitHub 工作流中，使 Jules 能够查看现有工作并直接在 GitHub 中进行更改。Jules 现已向一小部分测试者推出，并将在 2025 年晚些时候发布。

最后，谷歌 DeepMind 表示正在开发一款用于帮助用户熟悉游戏的 AI 代理，这是基于其在创建游戏 AI 方面的长期经验。谷歌正在与 Supercell 等游戏开发商合作测试 Gemini 解释《部落冲突》等游戏世界的能力。

AI 生成摘要

谷歌周三还发布了基于 Gemini 2.0 模型的 AI 生成摘要功能 "AI Overviews"，为某些 Google 搜索查询提供的摘要内容，将很快能够处理 " 更复杂的话题 "，以及 " 多模态 " 和 " 多步骤 " 的搜索内容。谷歌表示，这包括高级数学问题和编程问题。

新的 AI Overviews 功能将在本周开始进行有限测试，并将在明年初广泛推广。

不过，自今年春天推出以来，AI Overviews 引发了许多争议，其提供的某些可疑陈述和建议（例如推荐在披萨上加胶水）曾在网上引发热议。根据 SEO 平台 SE Ranking 的一份最近报告，AI Overviews 引用了 " 并不完全可靠或基于证据的 " 网站，包括过时的研究和付费产品列表。

分析认为，主要问题在于，AI Overviews 有时难以辨别信息来源是事实、虚构、讽刺还是严肃内容。过去几个月里，谷歌改变了 AI Overviews 的工作方式，限制了与时事和健康话题相关的答案。但谷歌并不声称这一功能已经完美无缺。

尽管如此，谷歌表示，AI Overviews 提升了搜索参与度，尤其是在 18 到 24 岁这一关键用户群体中——这是谷歌的重点目标人群。

最新 AI 加速器芯片 Trillium 专供 Gemini 2.0

谷歌周三发布了其第六代人工智能加速器芯片 Trillium，声称这一芯片的性能改进可能从根本上改变 AI 开发的经济模式。

这款定制处理器用于训练谷歌最新发布的 Gemini 2.0 AI 模型，其训练性能是上一代的四倍，同时大幅降低了能耗。

谷歌首席执行官桑达尔 · 皮查伊（Sundar Pichai）在一篇公告文章中解释道，谷歌已经将超过 10 万颗 Trillium 芯片连接在一个单一的网络结构中，形成了全球最强大的 AI 超级计算机之一。

Trillium 在多个维度上实现了显著的进步。与其前代相比，这款芯片每颗芯片的峰值计算性能提升了 4.7 倍，同时高带宽内存容量和芯片间互联带宽均翻了一倍。更为重要的是，它的能效提升了 67%，这是数据中心在应对 AI 训练巨大能耗需求时的一个关键指标。

Trillium 的商业影响不仅限于性能指标。谷歌声称，与上一代芯片相比，该芯片在每美元的训练性能方面提升了 2.5 倍，这可能会重塑 AI 开发的经济模式。

分析认为，Trillium 的发布加剧了 AI 硬體领網域的竞争，而英伟达凭借其基于 GPU 的解决方案长期占据主导地位。虽然英伟达的芯片仍然是许多 AI 应用的行业标准，但谷歌的定制芯片方法可能在特定工作负载，特别是训练非常大的模型方面具有优势。

还有分析称，谷歌在定制芯片开发上的巨额投资反映了其对 AI 基础设施重要性的战略押注。谷歌决定将 Trillium 提供给云客户，这表明其希望在云 AI 市场上更具竞争力，与微软 Azure 和亚马逊 AWS 展开激烈竞争。对于整个科技行业而言，Trillium 的发布表明 AI 硬體霸主之争正进入新阶段。

本文来自微信公众号 " 硬 AI"，关注更多 AI 前沿资讯请移步这里