今天小编分享的互联网经验:AI就是所有人疯狂竞争,最后Google赢得比赛的游戏?,欢迎阅读。
2016 年,刚刚成为 GoogleCEO 几个月后,桑达尔 · 皮查伊发表声明称 Google 将成为一家 "AI 优先 " 的公司,这一宣言背后,是 Google 对人工智能未来发展的战略性押注。2017 年,一群 Google 研究人员撰写了一篇关于 AI 的开创性论文《Attention Is All You Need》,提出了一种新的网络架构来分析文本,也就是后来成为了生成式 AI 技术基础的 Transformer。
然而,七年后的 2022 年底,ChatGPT 横空出世,Google 被打了个措手不及。讽刺的是,Google 早在两年前就已宣布了类似的技术 LaMDA,却未能将其及时推向市场。正如许多竞争对手所预料的,这个 " 房间里的大象 " 终于被迫醒来。面对突如其来的竞争压力,皮查伊甚至请回了公司联合创始人拉里 · 佩奇和谢尔盖 · 布林来重新审视公司的 AI 战略。
在 ChatGPT 推出后的几个月,Google 匆忙推出了自己的聊天机器人 Bard(后改名为 Gemini)。为了追赶对手的领先优势,Google 不断为 Gemini 添加大量新功能,试图弥补落后的局面。Gemini 在过去也曾卷入争议,去年不得不暂时下线其影像生成功能,原因是这个聊天机器人生成了穿着纳粹军装的黑人士兵影像,同时又拒绝生成白人的影像,这一功能直到六个月后才重新恢复。
经过几年的努力,甚至重组了团队结构,将 Gemini 应用团队转移到 DeepMind 部门,Google 通过 Gemini 实现了反弹,将人工智能业务推向快车道,几乎在所有方面都赶上了 OpenAI。
值得注意的是,所有 AI 领網域的大公司似乎都在朝着相同的方向发展,专注于相似的技术路线:开发 AI Agent(能够自主完成任务的 AI 系统)、深度搜索、更轻量的模型等等。这种趋同性可能意味着整个行业在某种程度上形成了共识,而 Google 正试图在这个共识中脱颖而出。
Gemini 的高频实用更新:从影像编辑到开源模型
就在苹果承认那个所谓更智能的 AI 版 Siri 目前只是个空头支票的同一时期,Gemini 推出了数个惊艳的更新。Google 的 Gemini 2.0 Flash 模型实现了让用户直接用自然语言来编辑图片的功能,精确度和灵活性达到了很高的水平。此前备曾收到争议的影像功能,如今已成为 Gemini 的亮点之一。
用户可以精确指导 AI 只修改影像中想要改动的部分,还能在同一张图上连续做多次精确修改而风格不会出现大的偏差,就像在给一位真实的设计师发需求一样。虽然目前 Gemini 2.0 Flash 还不能做到 100% 的一致性和准确性,但它显然为用户提供了创造更有趣、有用内容的强大工具。
将 Google DeepMind 的 CEO Demis Hassabis 变成一个长发男子
在开源方面,Google 上周还推出了新的多模态模型 Gemma 3,并对外开放了模型权重,允许在遵守规定的情况下用于商业用途。Google 表示,Gemma 3 的 Elo 评分达到了 1338 分,相当于 DeepSeek R1 模型 ( 1363 分 ) 的 98%。
但有个显著区别:DeepSeek 模型需要 32 张英伟达 H100 显卡才能达到这个分数,而 Gemma 3 只需要一张 H100 就行。因此,Google 宣称 Gemma 3 是 " 能在单张 GPU 或 TPU 上运行的最强大模型 "。
Gemma 3 的上下文視窗从先前的 8192 个 token 扩展至 128000,基于 Gemini 2.0 基础架构的 Gemma 3 还是一款多模态模型,能够处理文本、高分辨率影像以及视频。这些技术指标显示了 Google 在 AI 基础模型领網域的持续突破。
搜索与 AI 的深度融合:个性化成为关键
显然,Google 在很多领網域都能够持续创新,比如 Gemini,或者体验一下 Waymo 无人驾驶汽车就知道了。现在的问题是,Google 能在自己的核心产品和主营业务上进行创新吗?微软目前的 AI 战略很大程度上依赖于与 OpenAI 的合作伙伴关系,而非完全自主创新,苹果则在 AI 领網域似乎完全迷失方向。
现在,Google 一方面在搜索中加入了 Gemini 的 AI 功能,另一方面又在 Gemini 中强化了搜索能力,直接切入 OpenAI 试图抢占的交汇点。过去几周 Google 发布的一系列公告,许多都与搜索与 AI 语言模型的融合有关,看上去像是在追赶 ChatGPT 等厂商早已推出的 AI 搜索功能,但 Google 试图达到更高水平。
牺牲一部分隐私,让 AI 更了解你?Google 最近上线了一项新的 " 实验性功能 ",用户可以把搜索记录共享给 Gemini,来获得更加个性化的搜索结果。为了保护隐私,只有 Gemini 个性化模型才会连接到搜索历史记录,且相关对话不会被用来改进 Gemini,不会存储在其他地方,并且会在 60 天内自动删除。
有了这个功能,用户可以向 Gemini 提一些基础性问题,比如 " 我上周搜索的那家餐厅叫什么名?" 或者 " 我要去纽约了,能根据我的搜索历史给我推荐餐厅吗?"。
此外,Google 去年底推出的率先推出的 Deep Research 功能,如今用户无需订阅也可以免费使用了。使用 Deep Research 时,根据用户的指令,Gemini 会先制定一个研究计划,然后开始搜索网络上与提问相关的信息,最终生成一份全面但易读的报告。这一功能从最初基于成本较高的 Gemini 1.5 Pro 模型,现已更新到新的推理模型 Gemini 2.0 Flash Thinking Experimental 模型上。
从数字世界迈向物理世界:Gemini Robotics 的野心
Google 还在尝试将 Gemini 应用于物理世界。DeepMind 近期推出了两个新的模型,旨在帮助机器人更好地执行物理世界的任务。第一个是视觉 - 语言 - 动作模型 Gemini Robotics,让机器人即使没有接受过相关训练,也能够理解新情况。
Gemini Robotics 基于 Gemini 2.0 构建,结合了 Gemini 的多模态理解能力,并加入了物理动作作为新的模态。DeepMind 在演示视频中展示了搭载 Gemini Robotics 的机器人,这些机器人能听懂人说的指令并做出相应动作:机械臂能折纸、递蔬菜、小心地把眼镜放进盒子里,还能完成其他各种任务。
DeepMind 还推出了 Gemini Robotics-ER(具身推理),一种先进的视觉语言模型,能够理解复杂且动态的世界。简单来说,这个系统是给机器人开发者用的,目的是让其他机器人研究人员利用此模型来训练他们自己的模型,以控制机器人的动作。
Gemini Robotics 揭示了 GoogleDeepMind 眼中 AI 的发展方向。一些研究人员认为,AI 要想达到或超越人类能力,可能需要某种形式的 " 具身性 ",简单说就是让 AI 能在真实世界中感知和行动。而 Google 似乎已经走在了这条路上。
Google 的核心优势:生态、资源与底蕴
Google 追赶 OpenAI 的表现目前为止还不错,Gemini 2.0 Pro 和 Flash 模型确实很出色。深度研究功能做得相当好,上下文視窗大小在业界仍然是领先的,与搜索、Gmail、Google 办公套件、Google Meet、Android 等的整合也在进行中。
Google 还把推理模型整合到了更多日常应用中,包括日历、笔记、任务和照片。这使得 Gemini 可以执行更为复杂的任务,比如 Google 举例的:" 在 YouTube 上找一个简单的饼干食谱,把配料添加到我的购物清单中,然后帮我找附近还开门的杂货店。" 未来,Gemini 还能增强对用户照片的理解能力,帮助用户在需要时提取信息,例如整理过去旅行的行程,或提醒证件到期等。
有了足够优秀的基座模型,这让 Google 能够充分利用自己现有的产品组合、云基础设施以及他们在现代工作生活中的深度嵌入优势。Google 还拥有数十亿用户和充足的资金实力,可以利用自己的现有用户基础,以 OpenAI 们无法企及的方式发挥优势。
皮查伊曾在公司年终战略会议表示:" 纵观历史,你不一定要成为第一个,但你必须有良好的执行力,真正打造出同类最佳的产品。我认为这就是 2025 年的关键所在。" 他希望到 2025 年底有 5 亿人使用 Gemini,此外还有 Project Astra 这样的通用 Agent 项目在酝酿当中。
Google 本来有潜力成为像 ChatGPT 这样的对话式 AI 的市场领导者,但当时没能把握住这个机会。现在,现在 Google 所能做的就是继续推进这项服务,吸引更多用户来使用。
各个科技公司正不断推出新的应用场景和能力。尽管最初被 OpenAI 刺激而被动反应,但凭借深厚的技术积累和广泛的用户基础,Google 正逐渐重新确立其在 AI 领網域的领导地位。在这场 AI 竞赛中,Google 用 Gemini 的亮眼表现证明了自己依然是绝对的主力选手,而且底子依然足够厚,正在展示出赢得这场比赛的实力和决心。