今天小编分享的互联网经验:GPT-4地位难保,谷歌Gemini新王登基?,欢迎阅读。
出品|虎嗅科技组
作者|齐健
头图|Google
当地时间 12 月 6 日,谷歌官宣了其最新大模型 Gemini 1.0。
Gemini 1.0 与 LLaMA 模型相似,也是一套系列模型,其中包含三个版本:
Gemini Ultra ——参数量最大,能力最强,适用于高度复杂的任务。
Gemini Pro ——可扩展至各种任务的模型。
Gemini Nano ——高效的设备端任务模型。
Gemini 1.0 主打多模态能力,谷歌将 Gemini 定义为一款 " 原生多模态(natively multimodal)" 模型。
在模型能力方面,谷歌称 Gemini Ultra 的性能在大型语言模型(LLM)研发中使用的 32 个广泛使用的学术基准中的 30 个超过了当前最先进的结果。
在 MMLU(大规模多任务语言理解)测试框架中,Gemini Ultra 的得分高达 90.0%,甚至超越了人类专家。
Gemini 被谷歌 CEO Sundar Pichai 称为 " 谷歌迄今为止最大、能力最强的 AI 模型 "。
Sundar Pichai 在 Gemini 的官宣博客中写道:
" 在许多领先的基准测试中都具有最先进的性能。谷歌的第一个版本 Gemini 1.0 针对不同尺寸进行了优化:Ultra、Pro 和 Nano。这些是 Gemini 时代的第一个模型,也是谷歌今年早些时候成立 Google DeepMind 时的愿景的首次实现。这个模型的新时代代表了谷歌作为一家公司所做出的最大的科学和工程努力之一。我对未来以及双子座将为世界各地的人们带来的机会感到由衷地兴奋。"
目前,谷歌官方称其主打的聊天机器人 Bard 已更新至 Gemini Pro 版本,能力在推理、规划和理解等方面得到显著提升,并继续免费向用户提供服务。谷歌预计明年初推出更为先进的 "Bard Advanced",届时将采用 Gemini Ultra。
在 Gemini 发布之前,谷歌在生成式 AI 和 LLM 方面主推的两款模型 PaLM 2 和 LaMDA,在用户当中收获的评价一直不高,相对于业界领军的 GPT-4 差距很大。
由此,传闻中谷歌重点研发的 Gemini 模型一直被寄予厚望。Gemini 也是谷歌大腦(Google Brain)和 DeepMind 合并组建 Google DeepMind 之后的首个重要产品。
下面我们来看看,Gemini 到底牛在哪?
超过人类专家,向强人工智能迈近一步?
"Gemini 在 MMLU 基准测试中超越人类专家。"
虽然,有了 AlphaGo 的经验,我们并不认为 AI 在某些领網域超越人类是什么新鲜事。但今时不同往日,在 ChatGPT 带来的 AGI、强人工智能 " 威慑 " 下,任何被称为超越人类的 AI,多多少少都会引人侧目。
那么在这个测试集中超越人类专家,到底有多厉害呢?
大型语言模型(LLM)的主流评测数据集包括:GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA 等。通常用于评估模型在语言理解、推理、阅读理解和常识推理等方面的能力。
MMLU(大规模多任务语言理解)是一个结合了数学、物理、历史、法律、医学和伦理学等 57 个科目的测试集。相比于其他测试集,MMLU 的广泛性和深度更强,它通过大量和多样的任务来测试 AI 模型在理解自然语言方面的能力,特别是在复杂和多变的真实世界场景中的表现。这使得 MMLU 成为一个极具挑战性的评测框架,可以全面地评估和推动大型语言模型的发展。
GPT-4 与 Gemini 在 MMLU 测试集的对比
这个框架通常包括数以千计的不同任务,涵盖广泛的主题和挑战。MMLU 的目的是提供一个全面且多样化的方法,测试和评估语言模型在各种复杂和现实世界场景中的表现。其中的测试任务可能包括理解笑话、回答有关世界历史的问题、解释科学现象等众多更接近于人类知识、常识和理解能力的项目。
在 MMLU 测试中超越人类专家,也可以理解为,在这个测试框架下,Gemini 在 " 各种复杂和现实世界场景中的表现 " 超越了人类专家。
谷歌在官方博客中称:Gemini 利用 MMLU 基准方法使 Gemini 能够利用其推理能力在回答难题之前更仔细地思考,从而比仅使用第一印象有显着改进。
除此之外,Gemini Ultra 还在新的 MMMU(专家 AGI 的大规模多学科多模式理解和推理)基准测试中取得了 59.4% 的最先進帳数,该基准测试由跨越不同领網域、需要深思熟虑的推理的多模态任务组成。
谷歌的测试显示 Gemini Ultra 的性能优于之前最先进的模型,无需从影像中提取文本以进行进一步处理的对象字元识别 ( OCR ) 系统的帮助。这些基准凸显了双子座天生的多模态性,并表明了双子座更复杂推理能力的早期迹象。
Gemini 在文本和编码等一系列基准测试中的表现
在某个测试集中超越人类专家,对于 AGI 或者强人工智能来说虽然还相去甚远,但仍可以说是在这条路上迈出的坚实一步。
原生多模态,比 GPT-4 更强大?
其实 Gemini 的 LLM 性能表现并不是他最大的亮点。Gemini 真正值得关注的差异化能力是 " 原生多模态 "。
首先,什么是 "Gemini ’ s native multimodality"(Gemini 的原生多模态能力)?
原生多模态能力,指的是 Gemini 模型固有的能力,可以直接理解和处理多种不同类型的数据,而不需要额外的专门处理或转换。
有人可能会疑惑,那这与 GPT-4 有何不同?
打个简单的比方:假如 GPT-4 是一个诗人,他不仅擅长写诗,还会画画,但写诗是他的职业,画画只是他的副业。GPT-4 能处理文字(写诗)和图片(画画),但它主要还是以文字处理为强项。
具有 " 原生多模态能力 " 的 Gemini 则是一个诗人、画家 " 双料人才 ",他在写诗和画画方面同样出色,没有哪一方面比另一方面弱。Gemini 能够同时处理文字和图片,并且在这两个方面都做得很好,没有主次之分。
GPT-4 的多模态能力可能更多地是通过将不同模型的能力集成到一个框架中来实现的,而不是所有功能都在一个统一的模型中原生实现。作为一个大型语言模型,GPT-4 的主要优化和训练是围绕语言理解和生成。对于影像处理,虽然它展现了一定的能力,但可能不如那些专门针对影像处理优化的模型。而一个真正的本地多模态模型会在所有模态上都进行平衡和优化。
Gemini 的多模态理解能力
原生多模态能力意味着模型能够更自然、高效地处理和融合多种类型的数据,这在实现更复杂的 AI 应用方面具有重要意义。
当然,这也是更接近人类的理解方式。人类在理解世界时自然地融合了视觉、听觉和语言等多种感官信息。一个具有本地多模态能力的 AI 模型在处理信息时也采用了类似的综合方式,这更接近于人类的理解和认知方式。
全方位 " 打败 "GPT-4
Gemini 不仅是在模型能力和多模态能力方面敢与 GPT-4 一争高下。在应用方面,也提供了更多选择。
" 小模型 "
模型系列中的最小尺寸的 Gemini Nano 模型,被设计为适用于内存受限的端侧设备。它在多种任务上展示了出色的性能,尤其是在多模态和多语言处理方面。Gemini Nano 的这些特性使其成为适合在资源受限环境中使用的强大工具。
虽然目前大模型的主流趋势仍是 " 依云而生 ",但在 AI 未来的商业化版图中,离线、个人化、小型化的端侧模型正在受到越来越多的重视。
过去几个月中,高通、联想等众多巨头都在反复强调自己在端侧生成式 AI 的战略布局。高通推出的最新一代骁龙芯片对生成式 AI 提供了强大的支持能力,联想则提出 AI PC 概念,并强调未来一段时间里将围绕 AI 对已有的全部产品展开大刀阔斧地改革。
然而,硬體设备厂商非常活跃的同时,AI 厂商对端侧的关注却并不怎么高。以百模大战的国内市场为例,目前只有个位数的厂商正式宣布过自己的端侧小模型。其中包括雷军在 8 月的年度演讲中提到的小米 MiLM 模型的 13 亿参数版本,以及通义千问在 12 月 1 日开源的 Qwen-1.8B 模型。
在这方面,相比 OpenAI,谷歌更有动力去研究端侧小模型。毕竟谷歌本身具备 Pixel 手机和 Android 的双重优势。
训练
谷歌在训练 Gemini 过程中大量使用了自研的张量处理单元(TPU)v4 和 v5e。
在 TPU 上,Gemini 的运行速度明显快于早期、较小且功能较差的型号。这些定制设计的人工智能加速器一直是谷歌人工智能产品的核心,这些产品为搜索、YouTube、Gmail、谷歌地图、Google Play 和 Android 等数十亿用户提供服务。它们还使世界各地的公司能够经济高效地训练大规模人工智能模型。
Google 数据中心内的一排 Cloud TPU v5p AI 加速器超级计算机
随着 Gemini 的问世,谷歌也宣布了 TPU 系统的最强更新 Cloud TPU v5p,专为训练尖端 AI 模型而设计。
在训练优化方面,Gemini 增加了对模型并行性和数据并行性的利用,并对网络延迟和带宽进行了优化。Gemini 还使用了 Jax 和 Pathways 编程模型,为复杂的数学运算(如在机器学习中常见的运算)提供了优化的支持。
Jax 特别适用于高效地执行大规模的数组运算。Pathways 指用于管理和协调大规模训练任务的编程模型或框架。通过使用这些工具,Gemini 模型的开发者可以使用单个 Python 进程来协调整个训练过程,这样可以简化开发和训练工作流,同时利用 Jax 和 Pathways 的高效性能。
复杂推理能力
Gemini 1.0 复杂的多模式推理功能可以帮助理解复杂的书面和视觉信息。这使得它在发现大量数据中难以辨别的知识方面具有独特的能力。
批改物理作业
其通过阅读、过滤和理解信息从数十万份文档中提取见解的卓越能力将有助于在从科学到金融的许多领網域以数字速度实现新的突破。
Gemini 1.0 经过训练,可以同时识别和理解文本、影像、音频等,因此它可以更好地理解微妙的信息,并可以回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂学科的推理。
编程
Gemini 可以理解、解释和生成世界上最流行的编程语言(如 Python、Java、C++ 和 Go)的高质量代码。它跨语言工作和推理复杂信息的能力使其成为世界领先的编码基础模型之一。
Gemini Ultra 在多个编码基准测试中表现出色,包括 HumanEval(用于评估编码任务性能的重要行业标准)和 Natural2Code(谷歌内部保留的数据集),该数据集使用作者生成的源而不是基于网络的信息。
Gemini 还可以用作更高级编码系统的引擎。两年前,谷歌推出了达到竞赛水平的 AI 代码生成系统 AlphaCode。如今基于 Gemini 技术开发,刚刚又开发了 AlphaCode 2,专门针对竞技编程任务进行了优化和增强。
Gemini 的下一步规划
虽然谷歌在技术檔案和官方博客中把 Gemini 吹得很神,好像已经把 OpenAI 踩在脚下了。但今天的发布其实只是一个 " 论文 " 而已,真正有能力对标 GPT-4 的 Gemini Ultra 要到明年年初才会上线。
Gemini 家族的老二,Gemini Pro 目前已经准备开始为谷歌的对话机器人产品 Bard 提供支持了。
谷歌在博客中称:从今天开始,Bard 将使用 Gemini Pro 的微调版本来进行更高级的推理、规划、理解等。这是 Bard 自推出以来最大的更新。它将在 170 多个国家和地区提供英语版本,谷歌计划在不久的将来扩展到不同的模式并支持新的语言和地点。
不过,截至发稿,在 bard 上的测试仍显示未更新到 Gemini,且 bard 对 Gemini 的了解也十分有限。
提问 Bard 是否已经更新 Gemini
Gemini Nano 则被规划到了 Pixel。谷歌将在 Pixel 8 Pro 中首次内置 Gemini Nano。这款手机将支持 Recorder 应用中的 Summarize 等新功能,并从 WhatsApp 开始推出 Gboard 中的 Smart Reply,明年还会推出更多消息应用。
从 12 月 13 日开始,开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro 。
Google AI Studio 是一款基于网络的免费开发者工具,可使用 API 密钥快速构建应用程式原型并启动应用程式。当需要完全托管的 AI 平台时,Vertex AI 允许对 Gemini 进行自定义,提供全面的数据控制,并受益于额外的 Google Cloud 功能,以实现企业安全、安全、隐私以及数据治理和合规性。
Android 开发人员还可以通过 AICore(Android 14 中提供的新系统功能,从 Pixel 8 Pro 设备开始)使用 Gemini Nano(谷歌最高效的设备端任务模型)进行构建。
除此之外,Gemini 已经确定会很快融入到谷歌的业务中。在接下来的几个月中,Gemini 将出现在更多谷歌产品和服务中,例如搜索、广告、Chrome 和 Duet AI。
谷歌称已经开始在搜索中试验 Gemini,它使用户的搜索生成体验(SGE)更快,美国英语的延迟减少了 40%,同时质量也得到了提高。
值得注意的是,对于谷歌来说,搜索始终是其看家业务。Gemini 在谷歌搜索、广告业务中的全面铺开,可能会彻底改变未来的广告和营销逻辑。
在最近的一次工业軟體研讨会中,一位工业企业高管对虎嗅吐槽说," 谷歌的竞争对手在互联网上铺了很多软文,但是我们没有买软文。这就导致这些软文成了 LLM 训练的数据,进而沉淀到它的知识库中。在 AI 的意识里,我们的竞争对手已经被看作是默认的行业标准了。"
这种现象,早在 2022 年底,就已经有人预言了,"SEO is Dead, Long Live LLMO" 的口号。彼时的 ChatGPT 还没有联网功能,而今天的 Gemini 几乎已经确定要融入到谷歌的搜索引擎中,并完全改变未来的网络搜索逻辑。