谷歌到底还是缺一个王炸

今天小编分享的互联网经验：谷歌到底还是缺一个王炸，欢迎阅读。

本文作者：毕安娣，编辑：王靖，原文标题：《谷歌 I/O 大会，眼花缭乱，但缺王炸》，题图来自：视觉中国

五月真热闹，OpenAI 才开了春季发布会，谷歌 I/O 大会也如期召开了。

实话实说，观看主题演讲直播的过程中，腦海不禁会浮现曾被谷歌内部员工泄露的梗图——谷歌 AI 产品和项目一个又一个不同又相似的名字令人头大。

主题演讲的关键词仍旧是 AI，谷歌还自己在现场给出了提到 "AI" 的次数，在 120 次以上。

在万众瞩目的 AI 领網域，谷歌宣布了若干新消息。

AI 大模型更新了两个，Gemini 1.5 Pro 双下文視窗拓展到 200 万 token、Gemini Nano 增加多模态理解能力；新发布了三个，更轻更快的 Gemini 1.5 Flash、新架构下的 Gemma 2.0，以及视觉语言模型 PaliGemma。

另有文生图模型迭代至 Imagen 3，还新发布了一个文生视频模型 Veo。

AI 的具体应用延展上，谷歌这次憋了不少招。

谷歌的核心产品搜索中，发布 AI Overviews，加强版 AI 搜索摘要功能将率先上架美国。谷歌搜索中还将加入制定计划、视频搜索等多重 AI 驱动的功能。

此外，Gemini 还被塞进谷歌照片以及即时通讯应用 Google Messages 等产品中。

让人联想到 OpenAI 才发布的 GPT-4o 的，是谷歌旨在打造未来通用 AI 助理的新项目 Project Astra，以及 Gemin 的新功能 Live。Gemini Live 支持与 AI 语音聊天，年内预计加入相机功能，和 AI 实时 " 视频通话 "。

有点尴尬的是，在第三方拉流的直播间里，观众直呼 " 无聊 "，并对眼花缭乱的名字感到困惑。CNET 的评论员指出，谷歌需要精进讲故事的能力，而不是一上来就将各个部分尽数展开。

一

OpenAI 赶在谷歌 I/O 大会前一天开春季发布会，原本盛传的搜索产品没来，但 " 人类级别响应 " 的 GPT-4o 让人一窥新一代 AI 助理大战的轮廓。

难以想象要是没有 OpenAI 的狙击，谷歌会有多开朗。

本次谷歌 I/O 大会上，原本最具惊喜的也是 AI 助理方面的进展。

首先，谷歌公布了一个新项目，名为Project Astra。用谷歌 Deepmind 负责人哈萨比斯（Demis Hassabis）的话说，这是真正通向 AGI 的万能助手项目。

相比于谷歌上一代 AI 助手 Google Assistant，Project Astra 的 AI 助手模式多样，且能实时互動。没有烦人的唤醒词，也没有尴尬的延迟。看你所看，为你排忧解难。

演示视频中，用户打开手机摄像头，对准任意物品，AI 可以准确说出物品的名称，如 " 这是一个音响 "。用户可以实时视频的同时，在螢幕上涂画、进一步向 AI 提问，如画一个箭头指向音响的某个部分，询问是什么。当用户将镜头对准窗外时，AI 则直接根据景色猜测出用户所在的地点。

在摄像头匆匆扫过场景的情况下，用户求助 " 眼镜放在哪儿 "，助手准确识别并回答 " 你的眼镜在红苹果的旁边 "。

去年 12 月，Gemini 就曾发布通过视频和 AI 互动的视频，但事后承认视频经过剪辑，谷歌为此没少被戳脊梁骨。

有意思的是，这次在演示视频的一开头，谷歌就郑重承诺，视频是实时、一次性拍摄的。

不过，谷歌尚未针对 Project Astra 给出明确的时间线，只是含糊地表示今年晚些时候其中的一些功能将更新到 Gemini 及其他应用中。

谷歌在 AI 助手方面还有更看得见、摸得着的进展——Gemini Live，也就是对 Gemini 产品进行多模态功能拓展。Gemini Advanced 用户将可以用语音和 Gemini 进行对话，对话更流畅自然，延迟更低，可以随时打断，预计夏天上线。谷歌还表示，今年年内将加入相机功能，实现实时视频。

可以说这一次，谷歌被 OpenAI 精准狙击—— GPT-4o 不仅早一天发布，而且现场演示，未来几周就会开放给全部用户。

二

近日外界都在盛传 OpenAI 将推出搜索类产品，与谷歌一战，但这样的情况并没有发生，而谷歌自己也已经马不停蹄地更新了谷歌搜索。

搜索作为谷歌的核心产品，即将迎来一次大更新——搜索摘要功能 AI Overview，同时包含多步推理功能 Multi-Step Reasoning、在搜索中做计划 Planning in Search，以及用视频提问 Ask With Video。

AI Overview，顾名思义，是指用户键入文本、点击搜索之后，出现在最上方的将是 AI 帮忙整理的信息摘要。其中包含用自然语言对搜索结果的总结和概括，以及推荐的链接。从前这被谷歌称为 " 搜索生成式体验（SGE）"。

多步推理 Multi-step reasoning则可以用来做计划。当用户在搜索框键入 " 附近最好的瑜伽馆 " 时，AI 摘要会将附近瑜伽馆依照评分、课程、距离等信息分类成块，更清晰地展示给用户。Planning in Search 则允许用户直接用谷歌搜索做计划，如在搜索框中键入饮食计划的需求，搜索引擎会给你自动生成一份。