谷歌AI春晚宣告Gemini时代将至，10倍能效10倍上下文碾压OpenAI？

今天小编分享的互联网经验：谷歌AI春晚宣告Gemini时代将至，10倍能效10倍上下文碾压OpenAI？，欢迎阅读。

文｜李然虞景霖

编辑｜李然

封面来源｜官方视频截图

看过了昨天 OpenAI 虽然短但是科幻感极强的发布会，相信所有人都在期待一天后的谷歌将会给出怎样的回应。

如果说前一天 OpenAI 的发布会是一道精致的法餐，谷歌的 I/O 大会绝对算得上是一道量大管饱，诚意满满的满汉全席——谷歌端出了最新的大模型，全模态 AI 助手，开源视觉模型，视频生成模型，再到算力芯片等等一系列 AI 行业中最顶级的产品和技术前来应对。

整场发布会看下来，谷歌一洗前两年发布会结束都会给自己造成公关危机的 " 前耻 "，通过自己深厚的技术积累，强大的工程能力和丰富的产品生态，向世人展现了一个自信且目标远大的 AI 大厂应该有的样子。

具体来说，谷歌是唯一一家同时拥有自己的原生支持从文字到视频的多模态大模型，触及全球几十亿用户的 AI 应用场景，完全自主的 AI 算力芯片的科技大厂。谷歌在 AI 领網域中提前下的这些 " 硬功夫 "，一定会在未来继续奔涌的 AI 大潮中结出丰硕的果实。

被 OpenAI 截胡的 Project Astra，不够惊喜但足够惊艳

纵观整个发布会，最让人眼前一亮的发布就是这个几乎和 OpenAI 提前一天发布的基于 GPT-4o 的 AI 个人助理一样的 Project Astra。不过可惜的是，因为 OpenAI 的抢跑，它成为了世界上第二个多模态 AI 助手。

官方视频截图

我们先来看看谷歌放出的 Project Astra 演示效果。注意，DeepMind Hassabis 专门介绍，这个视频是在真实环境中一次拍摄完成的效果。

可以看到，Project Astra 也能实时的感知外部环境，并根据用户提出的问题进行非常智能的反馈。视频中，它向用户提供了包括代码编写，生活常识建议，周围环境的理解和识别，甚至能记住之前看到过的物品摆放位置。

可以说，相比 OpenAI 强调的自然人机互動，Project Astra 的宣传视频看起来真的更智能，更加科幻。如果说 OpenAI 的 GPT-4o 是把电影《Her》中的 Samantha 搬进了现实，那么 Project Astra 真的有钢铁侠 Javis 那味了。

根据 DeepMind CEO Hassabis 的说法，Project Astra 可以理解空间，处理视频输入，并且能够记忆之前处理过的内容。

基于 Gemini 强大的原生多模态能力和超长的上下文，对于视频的理解和记忆确实让人看到了科幻电影中那种无所不能的智能助手的影子了。

不过稍显可惜的是，Project Astra 依然还只是一个原型，实际的产品可能短期之内还难以上线，但是详细在技术层面厚积薄发，在产品层面又能集中力量办大事的谷歌，希望未来不会让用户们失望。

Gemini 时代到来，10 倍上下文 10 倍能效碾压 OpenAI？

作为谷歌 AI 的拳头产品，Gemini 从去年底发布之后，其长达 100 万 token 的上下文长度已经吸引了全世界超过 100 万开发者用户。

用户凭借它超强的上下文能力，可以将大量的文档和数据一次性处理，让 Geimini 输出复杂的结果。

而且因为 Gemini 原生的多模态能力，它能除了使用文字之外，在输出中还可以包括图片等多模态的结果和代码。

从 5 月 15 日起，Gemini 1.5 Pro 的 100 万 token 上下文能力通过谷歌的 Gemini Advanced 服务向全球的普通用户开放。

而未来，Gemini 1.5 Pro 将陆续开放 200 万 token 的上下文能力。

而作为像谷歌这样产品众多的大公司，Gemini 的除了直接服务用户，它与现有的谷歌应用结合在一起，将会迸发出更大的能量。

Gemini Flash ——轻量版的 Gemini Pro，价格直接打骨折

谷歌针对 Gemini 依然还在不断做出优化，此次推出的 Gemini Flash 可以看做是类似 GPT-4 向 GPT-4Turbo 的更新。

而在支持的功能上，Gemini 1.5 Flash 也和 Gemini 1.5 Pro 一样，是一个原生多模态的大模型，而且也支持 100 万 token 的上下文。

相比与 Gemini Pro， Gemini Flash 有着更高的推理性能和低得多的价格，但是性能几乎没有太大的下降。

在谷歌官披露的价格，Gemini Flash 的价格基本上只有 Gemini Pro 和其他主流大模型 API 价格的 1/10。

从这个 API 的定价能看出，谷歌通过自己在能耗和效率上非常有优势的 TPU，把大模型推理的成本降到了一个令人发指的程度。相信在如此低廉价格的吸引之下，未来会有越来越多的开发者转向谷歌的模型。

为了帮助用户能更加自然的与 Gemini 对话，谷歌将会上线 Gemini Live。用户可以通过手机和 Gemini 直接进行语音互動。它可以帮助用户练习面试，直接回答生活中的难题。而且在今年年底，Live 还将支持视频摄像功能。

计划行程这种头疼的差事儿，也可以甩给 Gemini Live。你只需告诉它你的时间、目的地、兴趣爱好等，它就能帮你制定一份个性化行程，包括景点、餐厅、活动，连路线时长都安排得明明白白。有变动还能自动更新，简直是旅行规划小能手。

此外，Gemini Live 还能与谷歌日历、任务、备忘录等应用无缝连接。拍张课程大纲，它就能自动为每项作业创建日历提醒；或者把新 get 的菜谱拍下来，食材清单就自动同步到备忘录里了。

未来，借助 Gemini Live 作为入口，Gemini 的能力将和谷歌生态中的各项应用深度融合，真正将大模型能力汇入我们的生活当中。

谷歌同时也在 Gemini 平台上推出 Gems ——谷歌版 GPTs。用户可以根据自己的需求创建专属于自己的 AI 助手：为你指定日常锻炼计划，用积极向上、充满激情的语气鼓励你坚持的健身伙伴 Gem, 又或者是烹饪助手 Gem、编程搭档 Gem ……

谷歌 AI 帝国的硬體基石—— Trillium

谷歌作为唯一一家拥有 AI 算力芯片的大模型公司，也发布了他们第 6 代 TPU —— Trillium。谷歌宣称，在今天 I/O 大会上发布的几乎所有 AI 产品，背后都有 TPU 的支持。

和上一代 TPU v5e 相比，Trillium TPU 的每芯片峰值计算性能提高了 4.7 倍，高带宽内存 ( HBM ) 容量和带宽提高了一倍，芯片间互联 ( ICI ) 带宽也提高了一倍，能效提高了 67%。

此外，Trillium 配备了第三代 SparseCore，这是一种专门用于处理高级排名和推荐工作负载中常见的超大嵌入的专业加速器。Trillium TPU 使谷歌能够更快地训练下一代基础模型，并以更短的延迟和更低的成本为这些模型提供服务。

Trillium 可以在单个高带宽、低延迟的 Pod 中扩展到最多 256 个 TPU。除了这种 Pod 级别的可扩展性外，通过多切片技术和钛智能处理单元 ( IPU ) ，Trillium TPU 可以扩展到数百个 Pod，通过每秒数 PB 的数据中心网络连接大楼规模的超级计算机中的数万个芯片。

可以说，正是因为谷歌牢牢的掌握了自己的 " 算力自由 "，才能在全世界都被英伟达割韭菜的 AI 浪潮中独享低成本高效率带来的优势，按照自己的节奏一步一步建立起 AI 帝国。

开源社区狂欢，谷歌发布首个开源视觉大模型

而面对开源社区的期待，谷歌这次也是诚意满满，发布了新的开源大模型 Gema 2。

官网截屏

而且还发布首个开源的视觉大模型 PaliGemma！

网页截屏

Hugging Face：https://huggingface.co/google

Gema 2 按照谷歌的说法，是目前开源模型中效率和性能结合得最好的模型。

Gema 2 27B 以不到 Llama 3 70B 一半的体量提供了与 Llama 3 70B 相当的性能，为开源模型设立的新的性能标杆。

而且 Gema 2 的 S 高效设计使其适合的计算量不到同类模型的一半。27B 机型经过优化，可以在英伟达的 GPU 或者 Vertex AI 中的单个 TPU 主机上高效运行，让用户更容易进行部署，并且更具成本效益。

而且 Gema 2 将为开发人员提供跨不同平台和工具生态系统的强大微调能力。从像 Google Cloud 这样的基于云的解决方案到像 Axolotl 这样的流行社区工具，Gema 2 的微调将比以往任何时候都更加容易。此外，与 Hugging Face 和英伟达 TensorRT-LLM 的无缝合作伙伴集成，再加上谷歌自己的 JAX 和 KERAS，确保用户可以优化性能并在各种硬體配置中高效部署。