今天小编分享的互联网经验:谷歌最强模型Gemini 来了!真正多模态,倾注所有资源,支持中文,GPT4不再独特了,欢迎阅读。
万众瞩目、被业界认为最有可能打败 GPT-4 的谷歌最强 AI 大模型终于亮相了!
美西时间 12 月 6 日,谷歌首席执行官 Sundar Pichai 和 DeepMind 负责人 Demis Hassabis 共同在官网宣布 Gemini 1.0 正式上线。
Gemini(双子座)由 Google Research 和 DeepMind 等多个 Alphabet 团队共同打造。作为一款新型的强大多模态人工智能模型,它可以归纳、理解、操作以及组合不同类型的信息。不仅能够处理文本,影像、视频和音频,还可以完成复杂的数学、物理等科学领網域任务,并能理解和生成各种编程语言的高质量代码。
Pichai 将 Gemini 形容为 " 我们迄今为止规模最大、能力最强的 AI 模型 ",并表示它在许多领先的基准测试中都展现出最先进的性能。" 第一代 Gemini 1.0 针对不同尺寸进行了优化,分别是:Ultra、Pro 和 Nano。这些是进入 Gemini 时代的第一个模型,也是我们今年早些时候成立 Google DeepMind 时的愿景的首次实现。"
在今年 5 月的 Google I/O 大会上,Pichai 就剧透谷歌正在开发 Gemini 的消息。它被描述为 " 下一代多模态智能网络 ",为 API 集成而设计,据传拥有像 GPT-4 一样的万亿参数,算力却是 GPT-4 的 5 倍,能够执行更复杂多样的任务。
为此,谷歌还将自己的两个最强人工智能实验室:谷歌大腦(Google Brain)和 DeepMind 合并,由原 DeepMind 首席执行官 Demis Hassabis 带队,投入数亿美元潜心研发 Gemini。
甚至连已经辞职四年、云淡风轻地做公益、搞飞艇的谷歌联合创始人谢尔盖 · 布林也重新回归,亲自坐镇硅谷山景城办公室参与 Gemini 决策,加入了这场 LLM 大混战。
可就在上周, The Information 援引知情人士消息称,Pichai 近期默默取消了本该在加利福尼亚、纽约和华盛顿举行的一系列 Gemini 公开亮相活动,原因是发现它 " 处理某些非英语查询时不可靠 ",给产品面世过程蒙上一层灰色。
也许是为了巩固市场信心,今天一早,Gemini 1.0 忽然隆重登场,强势出现在大众的视野中,迅速占据各大科技媒体头版。
那么这个谷歌举全军之力押注的最强人工智能大模型,到底怎么样?
三个版本,灵活部署
DeepMind 负责人 Hassabis 称 Gemini 是他们最灵活的模型,能够在从数据中心到移动设备的各种设备上高效运行。
为了实现这种可扩展性,Gemini 1.0 设计了三个不同功能和尺寸版本:
Gemini Nano — 端侧设备上最高效的模型。专为智能手机设计,可以在没有连接外部伺服器的情况下执行高效的 AI 处理任务。现已集成入 Pixel 8 Pro,可以支持录音应用中的 " 总结文本 " 功能,Gboard " 智能回复 " 功能。从 WhatsApp 开始,明年还将扩展到更多应用。
Gemini Pro — 运行在谷歌数据中心,适用于各种任务的最佳模型。从今天起为最新版本的 AI 聊天机器人 Bard 提供支持。它能够快速响应并理解复杂查询,是 Bard 推出以来的最大更新。目前为 170 多个国家和地区提供英语服务,计划未来几个月内支持新的语言和地区,并应用于搜索、广告、Chrome 和 Duet AI 等更多谷歌产品。
Gemini Ultra —规模最大且功能最强大的模型,专用于高度复杂的任务,会在完成当前测试阶段后的明年初向开发者和企业客户提供。届时还会推出基于 Gemini Ultra 的 Bard Advanced 更新版本。
在模型架构方面,Gemini 依然使用 Transformer 架构,采用了高效的注意力机制,支持 32k 的上下文长度。
跑赢多项 GPT-4 先进性能
谷歌自信表示,在对 Gemini 模型进行严格测试和性能评估后,从自然影像、音频和视频理解到数学推理,在被大型语言模型研究和开发中广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项都超越了目前 ChatGPT 代表的最先进水平。发布 Gemini 前,谷歌对它进行了一系列以标准行业指标评估的测试。
大规模多任务语言理解(MMLU)测试中,Gemini Ultra 得分率为 90.0%,高于 GPT-4 的 86.4%,成为首个超越人类专家表现的模型。MMLU 测试涵盖了包括数学、物理、历史、法律、医学和伦理在内的 57 个科目,旨在评估模型在全球知识领網域的理解和问题解决能力。
在 Reasoning(推理)、Math(数学)、Code(编码)三大块能力测试中,除 HellaSwag(日常任务常识推理)以 87.8% 落后于 GPT-4 的 95.3% 外,其它包括 " 多步推理挑战性任务 "、"" 代数 / 几何 / 预微积分等挑战性数学问题 "、"Python 代码生成 " 等多项测试都取得了比 GPT-4 更高的得分率。
多模态能力上,Gemini Ultra 在新的 MMMU 基准测试中获得 59.4% 的 SOTA 分数,超过了 OpenAI 多模态版本 GPT-4V 的 56.8%。这项基准测试跨越了多个不同的领網域,需要精密推理多种任务。
在影像基准测试中,即使没有采用对象字元识别(OCR)系统辅助,仅通过分析像素信息,Gemini Ultra 的表现还是超过了以往所有模型。音频测试方面,Gemini 的自动语音识别和自动语音翻译分数均高于接入 GPT-4 的 Whisper 系统。
Hassabis 表示,这凸显出了 Gemini 原生多模态的优越性。到目前为止,创建多模态模型的通常做法是先独立训练不同模态的单独组件,再把它们拼接起来,试图模拟出一些功能。
这样的模型虽然有时可以有效执行描述图片等特定任务,但在概念性更强、更复杂的推理方面,它们往往表现不佳。
而 Gemini 起初就是以原生多模态的方式设计,从一开始就在不同模态上使用由 Google 设计的 TPUs v4 和 v5e 芯片接受预训练。接着用更多额外的多模态数据对它进行不断微调,以提升效能。
这种方法使得 Gemini 在最初阶段就能更自然地理解和推理各种类型的输入内容,在几乎所有领網域的能力都达到了前所未有的先进水平。
下一代模型能力大更新
首先,Gemini 具有复杂的多模态推理能力,可以帮助理解复杂的书面和视觉信息,在海量的数据中发掘难以辨别的知识内容。
例如,通过自然语言 prompt 指示它过滤不相关论文,或通过阅读提取关键数据。只需一个午饭休息时间,Gemini 就可以帮你从 20 万篇论文中提取 250 篇文献要点,进一步将数据转化为任何需要的图表形式。这将大大有助于在科学、金融等多个领網域以数字化速度实现创新突破。
经过训练的 Gemini 显然还可以同时识别并理解文本、影像、音频数据,更好地理解具有细微差别的信息,回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等科目推理。在示例中,工作人员展示了 Gemini 可以检查手写物理错题,并解释正确做法。
为了更直观显示 Gemini 的多模态能力,劈柴哥在 X 发布了一段视频,表示 " 理解 Gemini 潜在惊人能力的最佳方式就是看看它们的实际应用 "。
视频中,Gemini 根据指示教工作人员 " 鸭子 " 的普通话发音,还解释了汉语声调。
工作人员还给 Gemini 做了一个仅用中文提示互动的演示。通过询问一张图片中的室内光线,用中要求 Gemini 给出公寓朝向。Gemini 用中文回答猜测房间朝南。又圈出照片中一株植物,询问它需要什么样的照明,gemini 接着解释了植物种类和光照需求。整个过程母语般流畅,可见 Gemini 在多语言环境下表现出众,完全也不亚于 GPT-4。
此外, Gemini 还可以理解、解释和生成世界上最流行的编程语言(如 Python、Java、C++ 和 Go)的高质量代码。实现跨语言工作并对处理复杂信息,这些能力使其成为世界领先的编码基础模型之一,协助程式员使用功能强大的 AI 模型作为协作工具设计应用程式。
对于开发人员来说,从 12 月 13 日开始,就可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 获取 Gemini Pro。Android 开发者还可以通过 AICore 使用端侧任务最高效的模型 Gemini Nano。
谷歌能否迎头赶上?
回想谷歌一路的大模型发展之路,与 OpenAI" 王炸 " 不断、极速更新,微软将 GPT 各项 AI 功能整合进核心产品铺天盖地推向客户相比,总显得慢人一步。今年 2 月发布聊天机器人 Bard 时更是出师不利,以一个事实错误让市值一夜蒸发 1000 亿美元;对标微软 Copilot 的 Duet AI 工作套件,市场反响不愠不火,云服务的财报表现也败给了微软。
特别是经历过 Brain 与 DeepMind 团队重组内耗、高级人才纷纷向 OpenAI 流失后,谷歌的 AI 之战打的更是精疲力竭。
不过,这毕竟是贡献出 Transformer 开山巨作《Attention is all you need》论文和里程碑式人工智能程式 AlphaGo、启发后续包括 ChatGPT 在内许多大模型发展的 AI 先驱之师。无论从技术基因、训练数据、资金和基建来说,都本该具备数一数二的实力。
这次 Gemini 的发布被谷歌视为十年来最关键的技术创新。它能否让谷歌重整旗鼓,击败 OpenAI,重登大模型赛场王座?
明年 Genmini Ultra 问世后,AI 竞赛格局是否会被重塑?
以及,新的 Google Bard 大家都试用了没,感觉如何?
欢迎留言分享,或进群和我们一起探讨!