五大重磅更新速览！谷歌I/O开发者大会究竟公布了什么？

今天小编分享的科技经验：五大重磅更新速览！谷歌I/O开发者大会究竟公布了什么？，欢迎阅读。

财联社 5 月 15 日讯（编辑赵昊）北京时间周三（5 月 15 日）凌晨，谷歌举办了年度 I/O 开发者大会，召开了长达两个小时的主题演讲。正如外界预期的那样，人工智能成为了这次活动的中心。

在演讲中，这家科技巨头发布了众多有关人工智能的产品和服务：

一、Gemini 的广泛更新

谷歌推出了新模型 "Gemini 1.5 Flash"，以作为 Gemini 1.5 Pro 更具成本效益的替代方案，同时仍具有强大的功能。Gemini 1.5 Flash 从活动当天开始在谷歌的 AI 工作室和 Vertex AI 中提供公开预览版。

2 月份公布的 Gemini 1.5 Pro 也将迎来更新，在今年晚些时候将会把 100 万 Tokens 的視窗进一步扩大至 200 万，这将使其能够同时处理 2 小时的视频、22 小时的音频、超过 60,000 行代码或超过 140 万个单词。

谷歌 CEO 皮查伊强调了 Gemini 在跨语言方面的改进，它将以 35 种语言向全球所有开发人员提供。皮查伊表示，Gemini 1.5 Pro 可以分析 PDF 和视频以提供摘要，这意味着当用户假期归来后，模型可以将电子邮件和附件一起进行总结。

专为在智能手机上运行而设计的 Gemini Nano 也从纯文本输入扩展到可以图片输入。谷歌表示，" 手机将能通过文字、图片、视频、音频，理解用户的世界。" 并且整个过程都是在本地运行，不会引发隐私泄露。

开源大模型 Gemma 也将有一系列的更新，定于下月推出的 Gemma 2 参数量将能达到 270 亿。最后，谷歌的第一个视觉语言模型 PaliGemma 也被添加到 Gemma 模型系列中。

二、Veo、Imagen 3、音频概述

针对 OpenAI 的 Sora，谷歌也推出了自己的视频生成模型 "Veo"，可以根据文字、图片和视频的提示，生成各种风格的高质量 1080P 视频。

公司表示，Veo 可以更好地理解自然语言，从而生成更能代表用户视觉的视频。它还能理解 " 延时拍摄 " 等电影术语，以生成各种风格的视频，并让用户更好地控制最终输出。

去年，谷歌推出了一款名为 "SynthID" 的工具，可以在 AI 生成的影像中嵌入人眼不可见的水印。在今天的大会上，公司宣布正在将这项工具扩展到文本和视频之中。上文提到的视频生成模型 Veo，在该平台生成的所有视频都会包含 SynthID 水印。

谷歌还推出了新一代的影像生成模型 "Imagen 3"，根据公司的说法该模型可生成迄今为止最高质量的影像，影像中具有更多细节和更少伪影，有助于创建更真实的视觉体验。

与 Veo 一样，Imagen 3 也改进了其自然语言功能，可以更好地理解用户提示及其背后的意图。谷歌称，Imagen 3 是渲染文本的最佳选择，目前只有选定的创作者才能使用，很快就会在 Vertex AI 中推出。

通过 Gemini 1.5 Pro，音频概述（Audio Overview）功能可以基于源檔案生成个性化和互動式音频对话。

三、AI 赋能谷歌搜索

作为主业，谷歌自然会大力将 AI 融进其主导全球的搜索引擎之中。从本周开始，谷歌搜索引擎将在美国推出 "AI 概览 "（AI Overviews）的功能，搜索引擎会直接归纳总结搜索结果。

同时谷歌搜索也将具备多步骤推理能力，可以一次性处理带有多个限制条件的长问题，并支持 " 拍视频 " 搜索解决方案的新搜索形式。

根据现场演示，搜索引擎具备多步骤推理的能力，例如寻找一个瑜伽教室，同时展示新手优惠报价，和距离特定位置的步行时间。这个 AI 搜索引擎助手，还能介绍食谱、安排行程，以及接受视频形式的提问。

许多人可能都曾经历过花费数小时滚动浏览网页信息流来查找想要搜索的图片，对此，谷歌推出了 AI 解决方案。借助 Gemini，用户可以在 Google Photos 中通过对话提示来查找他们寻找的影像。

在谷歌提供的案例中，一位用户希望看到他的女儿作为游泳运动员随着时间推移的进步，Google Photos 自动筛选给出。谷歌表示，这项名为 "Ask Photos" 的功能将于今年夏季晚些时候推出。

四、Astra 项目

谷歌在大会上宣布了一个名为 "Astra" 的高级视觉和对话响应智能体项目，即开发能在日常生活中提供帮助的通用 AI 智能体。媒体分析认为，这个项目旨在开发一种类似《钢铁侠》中人工智能系统 " 贾维斯 "。

根据谷歌的说法，为了做到真正实用，智能体需要能够像人一样理解周围复杂多变的环境并做出反应——它需要能接收并记忆所见所闻，从而了解上下文信息并采取行动。

谷歌表示，它还需要具备主动性、" 会学习 " 并能满足个性化需求，这样用户才能自然地与它交谈，不会有滞后或延迟。

DeepMind 首席执行官 Demis Hassabis 在台上表示，" 将响应时间缩短为对话式的内容是一项艰巨的工程挑战。"

五、AI 芯片等硬體

谷歌推出了第六代 TPU（张量处理单元）"Trillium"，将在 2024 年底向云客户提供。公司表示，与上一代 TPU v5e 相比，每个芯片的计算性能提高了 4.7 倍。

除了 TPU，谷歌也会推出 CPU 和 GPU 来支持工作负载。

皮查伊也在大会上提到，谷歌云将成为首批提供英伟达 Blackwell GPU 的云提供商之一，他在演讲中强调了谷歌 " 与英伟达的长期合作伙伴关系 "。