今天小编分享的互联网经验:谷歌AI春晚宣告Gemini时代将至,10倍能效10倍上下文碾压OpenAI?,欢迎阅读。
文|李然 虞景霖
编辑|李然
封面来源|官方视频截图
看过了昨天 OpenAI 虽然短但是科幻感极强的发布会,相信所有人都在期待一天后的谷歌将会给出怎样的回应。
如果说前一天 OpenAI 的发布会是一道精致的法餐,谷歌的 I/O 大会绝对算得上是一道量大管饱,诚意满满的满汉全席——谷歌端出了最新的大模型,全模态 AI 助手,开源视觉模型,视频生成模型,再到算力芯片等等一系列 AI 行业中最顶级的产品和技术前来应对。
整场发布会看下来,谷歌一洗前两年发布会结束都会给自己造成公关危机的 " 前耻 ",通过自己深厚的技术积累,强大的工程能力和丰富的产品生态,向世人展现了一个自信且目标远大的 AI 大厂应该有的样子。
具体来说,谷歌是唯一一家同时拥有自己的原生支持从文字到视频的多模态大模型,触及全球几十亿用户的 AI 应用场景,完全自主的 AI 算力芯片的科技大厂。谷歌在 AI 领網域中提前下的这些 " 硬功夫 ",一定会在未来继续奔涌的 AI 大潮中结出丰硕的果实。
被 OpenAI 截胡的 Project Astra,不够惊喜但足够惊艳
纵观整个发布会,最让人眼前一亮的发布就是这个几乎和 OpenAI 提前一天发布的基于 GPT-4o 的 AI 个人助理一样的 Project Astra。不过可惜的是,因为 OpenAI 的抢跑,它成为了世界上第二个多模态 AI 助手。
官方视频截图
我们先来看看谷歌放出的 Project Astra 演示效果。注意,DeepMind Hassabis 专门介绍,这个视频是在真实环境中一次拍摄完成的效果。
可以看到,Project Astra 也能实时的感知外部环境,并根据用户提出的问题进行非常智能的反馈。视频中,它向用户提供了包括代码编写,生活常识建议,周围环境的理解和识别,甚至能记住之前看到过的物品摆放位置。
可以说,相比 OpenAI 强调的自然人机互動,Project Astra 的宣传视频看起来真的更智能,更加科幻。如果说 OpenAI 的 GPT-4o 是把电影《Her》中的 Samantha 搬进了现实,那么 Project Astra 真的有钢铁侠 Javis 那味了。
根据 DeepMind CEO Hassabis 的说法,Project Astra 可以理解空间,处理视频输入,并且能够记忆之前处理过的内容。
基于 Gemini 强大的原生多模态能力和超长的上下文,对于视频的理解和记忆确实让人看到了科幻电影中那种无所不能的智能助手的影子了。
不过稍显可惜的是,Project Astra 依然还只是一个原型,实际的产品可能短期之内还难以上线,但是详细在技术层面厚积薄发,在产品层面又能集中力量办大事的谷歌,希望未来不会让用户们失望。
Gemini 时代到来,10 倍上下文 10 倍能效碾压 OpenAI?
作为谷歌 AI 的拳头产品,Gemini 从去年底发布之后,其长达 100 万 token 的上下文长度已经吸引了全世界超过 100 万开发者用户。
用户凭借它超强的上下文能力,可以将大量的文档和数据一次性处理,让 Geimini 输出复杂的结果。
而且因为 Gemini 原生的多模态能力,它能除了使用文字之外,在输出中还可以包括图片等多模态的结果和代码。
从 5 月 15 日起,Gemini 1.5 Pro 的 100 万 token 上下文能力通过谷歌的 Gemini Advanced 服务向全球的普通用户开放。
而未来,Gemini 1.5 Pro 将陆续开放 200 万 token 的上下文能力。
而作为像谷歌这样产品众多的大公司,Gemini 的除了直接服务用户,它与现有的谷歌应用结合在一起,将会迸发出更大的能量。
Gemini Flash ——轻量版的 Gemini Pro,价格直接打骨折
谷歌针对 Gemini 依然还在不断做出优化,此次推出的 Gemini Flash 可以看做是类似 GPT-4 向 GPT-4Turbo 的更新。
而在支持的功能上,Gemini 1.5 Flash 也和 Gemini 1.5 Pro 一样,是一个原生多模态的大模型,而且也支持 100 万 token 的上下文。
相比与 Gemini Pro, Gemini Flash 有着更高的推理性能和低得多的价格,但是性能几乎没有太大的下降。
在谷歌官披露的价格,Gemini Flash 的价格基本上只有 Gemini Pro 和其他主流大模型 API 价格的 1/10。
从这个 API 的定价能看出,谷歌通过自己在能耗和效率上非常有优势的 TPU,把大模型推理的成本降到了一个令人发指的程度。相信在如此低廉价格的吸引之下,未来会有越来越多的开发者转向谷歌的模型。
为了帮助用户能更加自然的与 Gemini 对话,谷歌将会上线 Gemini Live。用户可以通过手机和 Gemini 直接进行语音互動。它可以帮助用户练习面试,直接回答生活中的难题。而且在今年年底,Live 还将支持视频摄像功能。
计划行程这种头疼的差事儿,也可以甩给 Gemini Live。你只需告诉它你的时间、目的地、兴趣爱好等,它就能帮你制定一份个性化行程,包括景点、餐厅、活动,连路线时长都安排得明明白白。有变动还能自动更新,简直是旅行规划小能手。
此外,Gemini Live 还能与谷歌日历、任务、备忘录等应用无缝连接。拍张课程大纲,它就能自动为每项作业创建日历提醒;或者把新 get 的菜谱拍下来,食材清单就自动同步到备忘录里了。
未来,借助 Gemini Live 作为入口,Gemini 的能力将和谷歌生态中的各项应用深度融合,真正将大模型能力汇入我们的生活当中。
谷歌同时也在 Gemini 平台上推出 Gems ——谷歌版 GPTs。用户可以根据自己的需求创建专属于自己的 AI 助手:为你指定日常锻炼计划,用积极向上、充满激情的语气鼓励你坚持的健身伙伴 Gem, 又或者是烹饪助手 Gem、编程搭档 Gem ……
谷歌 AI 帝国的硬體基石—— Trillium
谷歌作为唯一一家拥有 AI 算力芯片的大模型公司,也发布了他们第 6 代 TPU —— Trillium。谷歌宣称,在今天 I/O 大会上发布的几乎所有 AI 产品,背后都有 TPU 的支持。
和上一代 TPU v5e 相比,Trillium TPU 的每芯片峰值计算性能提高了 4.7 倍,高带宽内存 ( HBM ) 容量和带宽提高了一倍,芯片间互联 ( ICI ) 带宽也提高了一倍,能效提高了 67%。
此外,Trillium 配备了第三代 SparseCore,这是一种专门用于处理高级排名和推荐工作负载中常见的超大嵌入的专业加速器。Trillium TPU 使谷歌能够更快地训练下一代基础模型,并以更短的延迟和更低的成本为这些模型提供服务。
Trillium 可以在单个高带宽、低延迟的 Pod 中扩展到最多 256 个 TPU。除了这种 Pod 级别的可扩展性外,通过多切片技术和钛智能处理单元 ( IPU ) ,Trillium TPU 可以扩展到数百个 Pod,通过每秒数 PB 的数据中心网络连接大楼规模的超级计算机中的数万个芯片。
可以说,正是因为谷歌牢牢的掌握了自己的 " 算力自由 ",才能在全世界都被英伟达割韭菜的 AI 浪潮中独享低成本高效率带来的优势,按照自己的节奏一步一步建立起 AI 帝国。
开源社区狂欢,谷歌发布首个开源视觉大模型
而面对开源社区的期待,谷歌这次也是诚意满满,发布了新的开源大模型 Gema 2。
官网截屏
而且还发布首个开源的视觉大模型 PaliGemma!
网页截屏
Hugging Face:https://huggingface.co/google
Gema 2 按照谷歌的说法,是目前开源模型中效率和性能结合得最好的模型。
Gema 2 27B 以不到 Llama 3 70B 一半的体量提供了与 Llama 3 70B 相当的性能,为开源模型设立的新的性能标杆。
而且 Gema 2 的 S 高效设计使其适合的计算量不到同类模型的一半。27B 机型经过优化,可以在英伟达的 GPU 或者 Vertex AI 中的单个 TPU 主机上高效运行,让用户更容易进行部署,并且更具成本效益。
而且 Gema 2 将为开发人员提供跨不同平台和工具生态系统的强大微调能力。从像 Google Cloud 这样的基于云的解决方案到像 Axolotl 这样的流行社区工具,Gema 2 的微调将比以往任何时候都更加容易。此外,与 Hugging Face 和英伟达 TensorRT-LLM 的无缝合作伙伴集成,再加上谷歌自己的 JAX 和 KERAS,确保用户可以优化性能并在各种硬體配置中高效部署。
而 PaliGema 是一个受 Pali-3 启发的强大的开源 VLM。PaliGema 专为在各种视觉语言任务上进行了微调,能完成包括影像和短视频字幕、视觉问题回答、理解影像中的文本、对象检测和对象分割等任务。
OpenAI 的 AI 搜索没有等来,谷歌的让人惊喜不已
谷歌正在从头到尾将 AI 全面融入它的搜索引擎,可谓一场全方位的 AI 革命。谷歌 CEO 劈柴在前几天的专访中,专门提到了 AI 搜索,对于谷歌来说是不允许失败的一仗。
当你需要一个快速答案却没时间自己拼凑信息时,就可以让 "AI 概览 "(AI Overview)来代劳。用谷歌搜索新任掌门人 Liz Reid 的话说就是:生成式 AI 让谷歌可以 " 带你完成更多搜索工作 ",专注于用户真正想做的事。
这项功能已开始在美国上线,陆续将登陆更多国家。谷歌预计,到今年年底,将有超过 10 亿人获得访问权限。
数据显示,AI 概览中的链接较传统网页列表更容易获得点击。未来,随着这一功能的拓展,谷歌将持续关注为出版商和创作者带来有价值的流量。
多步推理,一次到位,解决复杂问题
借助 Gemini 模型的多步推理能力,AI 概览将帮助用户更复杂问题。用户可以一次性提出包含所有细节和注意事项的问题,而不用将问题拆解进行多次搜索。
举例而言,你想找一家受当地人欢迎、通勤方便且为新客提供优惠的瑜伽或者普拉提工作室,你只需要在搜索框输入:
找到波士顿最好的瑜伽或普拉提工作室,并展示店铺的新客优惠及其到 Beacon Hill 步行所需要的时间。
此外还可以让 AI 概览为你提供膳食和独家规划帮助,例如 " 为一群人制定一个易于准备的 3 天膳食计划 ",你就可以得到一个包含各种食谱的方案。如果想做出些调整,如将晚餐替换成素食,只需简单说明,搜索就会自动修改计划。你还可以快速将计划导出到 Google Docs 或者 Gmail 中。
当你寻找灵感时,AI 搜索也能和你一起头腦风暴,创建一个 AI 组织的页面。你可以看到有用的搜索结果被归类在不同的标题下面,涵盖了多种视角。
得益于 Gemini 多模态能力的进步,用户不仅可以用声音直接搜歌曲,还可以用 " 圈选搜索 "(Circle to Search)功能圈出图片中的一部分进行图片搜索,甚至可以利用视频查找信息。
例如在旧货商店买了一台唱片机,但打开开关后却发现它无法工作,唱针也出现了异常漂移。这时,你可以直接用进行视频搜索,从而免去了费时费力找合适词语来描述问题的麻烦,并能获得一份包含故障排除步骤和资源的 AI 概览。
目前,以上功能都指向美国地区使用英文搜索的实验室用户开放,其他地区还需耐心等待。
视频、图片、音乐三管齐下:谷歌多模态进展更新
谷歌在多模态 AI 领網域又有新动作:不仅发布了新的文生视频生成模型Veo,并更新了文生图模型Imagen 3。
先说说 Veo,它可以生成各种电影和视觉风格的 1080p 分辨率的高质量视频,时长还能超过一分钟。它对自然语言和视觉语义有着深刻的理解,当创作者提到 " 延时摄影 "" 全景航拍 " 这些专业术语,它能准确捕捉你的创意,生成与构想高度匹配的视频内容。
这样的 " 懂你 " 的能力,得益于谷歌此前在 GQN、DVD-GAN、Imagen-Video 等领網域的深厚积累。Veo 的推出,意味着谷歌在视频内容理解、高清渲染、物理模拟等方面都有了质的飞跃。
从这个视频的效果来看,视频的长度,变化的多样性,视频内容的一致性,与 OpenAI 放出的 Sora 生成的视频相比一点也不差。
再来看看 Imagen 3,这是是谷歌迄今为止最先进的文本到影像生成模型。与上一代相比,Imagen 3 生成的影像少了许多视觉伪影,质量更上一层楼。不仅如此,它还具备高水平的语义理解能力,可以完美融合长文本提示中的各种细节,并轻松驾驭不同的艺术风格。
作为文本渲染能力的 " 一哥 ",Imagen 3 有望在贺卡、PPT 标题页等个性化图文生成任务中大显身手。
最后,谷歌和 YouTube 联合推出的Music AI Sandbox也很有看点。他们为音乐人提供了一系列智能工具,并与 Wyclef Jean、Marc Rebillet 等大咖展开合作,持续拓展 Gemini AI 在音乐创作领網域的应用边界。
作为在 AI 浪潮中起得最早,投入最大的玩家,谷歌正在用自己的实际行动告诉世人,只要赶上了集,不分早晚,都有可能是最后的赢家。