今天小编分享的科技经验:谷歌狙击OpenAI,欢迎阅读。
12 月 12 日,在 OpenAI 宣布 ChatGPT 全面接入苹果之际,谷歌发布新一代大模型 Gemini 2.0,值得注意的是,Gemini 2.0 专为 AI 智能体(AI Agent)而生。
谷歌首席执行官 Sundar Pichai 在公开信中称," 在过去一年中,我们一直在投资开发更具 " 代理性 " 的模型,即这些模型能更深入地理解你周围的世界,提前多步思考,并在你的监督下为你执行任务。今天,我们很高兴迎来新一代的模型—— Gemini 2.0,它是我们迄今为止最强大的模型。通过多模态的新进展——如原生影像和音频输出——以及原生工具使用,我们能够构建新的 AI 智能体,使我们更接近普遍 AI 助手的愿景。"
谷歌 DeepMind CEO Demis Hassabis 也表示,2025 年将是 AI 智能体的时代,Gemini 2.0 将是支撑我们基于智能体工作的最新一代模型。
目前 Gemini 2.0 版本尚未正式上线,谷歌表示已经将其提供给了一些开发者内测。第一时间上线的是比 Gemini 1.5 Pro 更强的 Gemini 2.0 Flash 实验版,实验版已在网页端开放,Gemini 用户可以通过 PC 端访问 Gemini 2.0 Flash,移动端即将推出。
根据谷歌发布的基准测试结果,不论是在多模态的图片、视频能力上,还是编码、数学等能力上,仅是 Flash 实验版的 Gemini 2.0 表现几乎全面超越 Gemini 1.5 Pro,且响应速度提升了 2 倍。
谷歌集中火力猛攻 AI 智能体
通过谷歌的本次更新,我们已经可以窥见其 AI 布局的冰川一角——一切为了智能体。
更强大的多模态能力:
Gemini 2.0 Flash 实验版除了支持影像、视频和音频等多模态输入,还支持多模态输出,比如原生生成的影像与文本结合,以及可操控的多语言文本转语音(TTS)音频。
更专业的 AI 搜索:
谷歌在 Gemini Advanced 中推出了一项名为深度研究(Deep Research)的智能体新功能。该功能结合了谷歌的搜索专长和 Gemini 的高级推理能力,可以围绕一个复杂主题生成研究报告,相当于一个私人研究助手。
多款智能体更新、上线:
更新了基于 Gemini 2.0 构建的智能体 Project Astra :Astra 的新功能包括支持多语言混合对话;能够在 Gemini 应用中直接调用 Google Lens 和地图功能;记忆能力提升,具备最多 10 分钟的会话内记忆,对话更连贯;借助新的流式处理技术和原生音频理解能力,该智能体能够以近于人类对话的延迟来理解语言。值得注意的是,Astra 是谷歌为眼镜项目所做的前瞻项目。谷歌提到,正在将 Project Astra 移植到眼镜等更多移动终端中。
发布适用于浏览器的智能体 Project Mariner(海员项目):该智能体能够理解并推理浏览器螢幕上的信息,包括像素和网页元素(如文本、代码和图片),然后通过 Chrome 扩展程式来利用这些信息帮你完成任务。
发布专为开发者打造的 AI 编程智能体 Jules:Jules 支持直接集成到 GitHub 工作流中,用户使用自然语言描述问题,就能直接生成可以合并到 GitHub 项目中的代码;
发布游戏智能体:能够实时解读螢幕画面,通过用户游戏螢幕上的动作给出下一步操作建议,或直接在你打游戏的时候通过和你语音交流。
谷歌表示,明年年初,会将 Gemini 2.0 扩展到更多旗下产品中。此前推出的 AI Overviews 将集成 Gemini 2.0,从而提升复杂问题处理能力,包括高级数学公式、多模态查询和编程。本周已经进行有限测试,预计明年推广,并扩展至更多国家和语言。