今天小编分享的互联网经验:背水一战狙击GPT-4,谷歌Gemini终发布,听说读写全能选手,欢迎阅读。
最有希望超越 GPT-4 的模型来了——美国硅谷时间 12 月 6 日上午,谷歌 CEO 劈柴正式宣布," 大杀器 "Gemini 1.0,正式上线。
Gemini 是一个原生多模态大模型,谷歌在今年 5 月的 I/O 大会宣布开始研发后,Gemini 的传说不断:将谷歌大腦和 DeepMind 部门合并,数百人攻坚,几乎耗尽谷歌内部计算资源……如此种种,只为和 OpenAI 一战。
但一直等到大半年后,OpenAI 的 GPT-4 上线,GPT 商店也把硅谷炸了一圈,Gemini 才在千呼万唤中面世。
△图源:谷歌
一个月前,英伟达的资深科学家 Jim Fan 就为 Gemini 捏了把汗:" 人们对谷歌 Gemini 的期望高得离谱!"
他表示,Meta 要惊艳世界的话,只要让 Llama 3 开源就好了。但谷歌想要重夺当年 AlphaGo 的辉煌,Gemini 不仅要 100% 达到 GPT-4 的能力,还要在成本或速度上比 GPT-4 更好。
△图源:X
这次发布中,Gemini 终于揭开了面纱——展现了其文本、影像、视频、音频和代码的五大能力,一口气推出了大中小三个版本,从云上到手机、平板都可以跑。
并且,Gemini 还有大量的酷炫用例:AI 对一段视频可以做出准确反应,AI 能和你玩你画我猜……简单来说,越来越像一位真正的人类助手了。
Gemini 1.0 上下文視窗为 32k,基于谷歌自家的 TPUs v4 和 v5e 进行大规模训练。这次,谷歌顺势推出了新的 TPU 系统 Cloud TPU v5p,希望为训练 AI 模型的客户提供支持。
△ Google 数据中心内,一排 Cloud TPU v5p AI 加速器超级计算机
AI 圈子里,也是一片相爱相亲的景象。Gemini 官宣发布后,甚至不少 OpenAI 的研究员也都发文祝贺谷歌:
△来源:X
听说读写样样行,多项性能超越 GPT-4,有任务首次超越人类
"Gemini,从第一天起就是多模态大模型——跨越文本、 影像、 视频、 音频和代码的无缝推理。" 谷歌官网上,这是介绍 Gemini 的第一句话。
这是 Gemini 1.0 最重要的特点:一位更强大的 " 全科选手 "。
如果和 OpenAI 做对比,OpenAI 的 GPT-3.5 一开始是纯文字的大语言模型,到 GPT-4 才上了视觉等多模态能力,更像是组件的拼装,好比先学了语文,再学数学。
但 Gemini 从第一天起就设计成原生多模态结构,相当于 " 所有科目一起学 "。这其实也是人类认识世界的方式。这意味着,Gemini 可以抽象和理解、操作和组合不同类型的信息,包括文本、代码、音频、影像和视频等等。
一个直观的例子是,在理解影像信息时,Gemini 基于影像就可以马上进行理解。但如果是非原生多模态结构模型上,就需要先借助 OCR(光学字元识别技术)先 " 认出来 " 图里是什么——转成文本,再放到语言模型中进行语义理解。
Gemini 可以做到端到端的理解,信息不会在 " 转录 " 过程中丢失。正因如此,Gemini 的应用实例演示显得尤为丝滑:
演示者一边画画,Gemini 一边辨认,认出了刚开始的曲线形状。画出鸭子后,Gemini 也能马上识别 " 鸭子是蓝色的,正在水里游泳 "。
Gemini 几乎是实时就完成辨别,并且用自然、流利的语音和演示者对话。
在演示者拿出蓝色的橡皮鸭实物后,它甚至还会幽默地打趣:" 看来蓝色的鸭子比我想象中更常见。"
在通用的文字聊天场景里,Gemini 聪明了不少。在演示视频里,Gemini 挺像《Her》里的高级人工智能,可以与人类自如地进行互動。
在一个实例中,演示者向 Gemini 询问关于女儿生日派对的灵感。Gemini 先是询问演示者:" 可以告诉我她对什么东西感兴趣吗?"
得到足够的信息后,Gemini 自行撰写了 PRD(产品需求)文档,并且开始不再以文本形式回复——而是迅速写代码,帮用户定制了一个图文并茂的小组件。上面包含建议的派对主题、活动、食品建议等,让演示者在上面滑动,查看自己最感兴趣的选项。
辨认环境、物体等等场景,Gemini 也不在话下。给它一张充满阳光的房间照片,Gemini 还可以推理出来这个房间是朝南朝北,甚至告诉你房间里的植物应该要怎么照顾。
△ Gemini 识别房间朝向
之所以能够做到更自然的互動,和 Gemini 的原生多模态架构密不可分。
Google 解释了部分的训练细节。比如,Gemini 的团队从一开始就针对不同的模态进行预训练,然后再使用额外的多模态数据对其进行微调,以进一步提升其能力。
在性能上,Gemini 相当强悍。Google 放出了一系列测试结果,从自然影像、音频和视频理解到数学推理,在大型语言模型 ( LLM ) 研发中使用的 32 个广泛使用的学术基准上,Gemini Ultra 的性能在 30 项上都超过了当前最先进的模型。
更惊人的是,在MMLU(大规模多任务语言理解)任务上,Gemini Ultra 的得分高达 90.0%,是首个超越人类专家的模型。MMLU 是测试 AI 模型知识和问题解决能力的最主流测试,结合数学、物理、历史、法律、医学和伦理学等 57 个科目的问题。
编程,则是大模型衡量能力的重要维度。基于 Gemini,谷歌本次还推出了更先进的编程系统 AlphaCode 2,它能理解、解释并生成 Python、Java、C++ 和 Go 等编程语言的高质量代码,还擅长解决一些超出编程范围、涉及复杂数学和理论计算机科学的编程竞赛问题。
比如,和上一代产品 AlphaCode 相比,AlphaCode 2 解决的问题数量几乎是原来的两倍,其表现优于 85% 的竞赛参与者,AlphaCode 的这一比例接近 50%。如果程式员通过为代码示例定义某些属性来与 AlphaCode 2 协作,它的性能还会更好。
" 这是我们目前规模最大,性能最强的大模型,Gemini 可以像我们一样,理解我们周围的世界。" 谷歌 DeepMind CEO Demis Hassabis 表示。
这次发布,谷歌一口气提供了 Gemini 的三个尺寸模型:Ultra、Pro 和 Nano,分别对其进行了优化:
Ultra 是性能最强的模型,适用于高度复杂的任务,在云上运作;
Pro 是可扩展各种任务的最佳通用模型;
Nano 是针对端侧设备的小模型,比如在手机、家电等各类消费设备上跑。Nano 还细分了两种型号尺寸:Nano-1(18 亿参数)和 Nano-2(32.5 亿参数),分别针对低内存和高内存设备。
谷歌先将 Nano 搬到了自家的终端上。现在,Gemini Nano 已经可以跑在谷歌Pixel 8 Pro手机,Pixel 8 Pro 是为 Gemini Nano 设计的首款谷歌智能手机,不用联网,就可以离线调用。
Pixel 8 Pro 先上了两个自带功能,一是把手机录音内容自动归纳总结;二是在 WhatsApp 上聊天时,谷歌键盘可以根据聊天内容,自动给出推荐回复的文字。
△键盘自动生成回复语
Gemini Pro 就先被用在谷歌聊天机器 Bard 的更新上。谷歌称,这是 Bard" 自推出以来最大的更新 " ——在理解、总结、推理、编码和规划等方面的能力更强。Bard 集成 Gemini Pro 之后,已经在超过 170 个国家和地区提供英语服务。
为了展现更新后的 Bard 有多强,谷歌甚至请了一个油管教育博主 Mark Rober,全程使用 Bard 作为辅助工具,从零开始画图纸,最后真的造出了一架巨大的纸飞机!
△来源:谷歌
△纸飞机穿越火环,挑战成功
Google 根据许多行业标准基准,对 Pro 版本进行了测试。结果显示,在 8 个基准测试中的 6 个里,Gemini Pro 的表现优于 GPT-3.5。
不过,性能最强的 Ultra 还要再等等。谷歌表示,他们还要先给客户、开发者、合作伙伴以及安全和责任专家进行早期实验和反馈,预计在 2024 年初,Ultra 版本会先向开发者和企业客户提供服务。
谷歌还给大家画了个饼。2024 年初,谷歌还将计划推出 Bard Advanced,会由 Gemini Ultra 提供支持,能够快速理解文本、影像、音频、视频等多模态输入并采取行动。看起来,和现在火热的 AI Agent(智能体)初级形态就非常类似了。
AI 上限又提高了,AI 竞赛仍充满变数
Gemini 的发布无疑是 AI 界又一个里程碑,这意味着 AI 大模型浪潮进入到一个全新阶段。
比起大语言模型,多模态模型的运作模式,才是人类最自然的和世界互動的方式:用眼睛看到东西,用耳朵听到声音,再把这个东西的语义用声音 / 文字输出,再做出决策。
Gemini 的发布,只是掀起了多模态领網域的一角。
多模态领網域还在技术探索初期,技术路径还未确定。比起大语言模型,多模态模型增加了音频、视频、图片这些数据,训练难度也很大。
值得注意的是,视频内容已经是信息时代的主流,据思科的年度互联网报告——视频已经占据互联网超过 80% 的流量。
这些数据的训练还远未到头,意味着大模型的天花板上限还很高。如果 AI 领網域的尺度定律(Scaling law)一直奏效,随着训练规模不断扩大,我们还有许多可以期待的能力涌现。
" 长期以来,我们一直希望从人们理解世界和与世界互动的方式中汲取灵感,建立新一代 AI 模型,"Google DeepMind CEO 和联合创始人 Demis Hassabis 表示," 今天,当我们推出 Gemini 时,我们离这一愿景又近了一步。"
站在现在这个时间节点,距离 ChatGPT 震撼世界的发布刚好过去一年。这一年里,全世界的 AI 公司夜以继日地奋斗,或多或少都为了回答一个问题:到底还能有谁,可以超越 OpenAI?
Meta 旗下的 Llama 试图以开源路线,集众人之力;而在和 OpenAI 一样的闭源路线上,谷歌是当仁不让的最强大对手。
谷歌是这轮大模型技术突破的先驱,GPT 模型的核心 Transformer 架构正是出自谷歌之手。但在今年的 AI 大战中,谷歌一直被称为 " 起个大早赶个晚集 "。
和 OpenAI 的对线中,谷歌的回应总慢一拍,对标 ChatGPT 的聊天机器人 Bard 匆忙上线,此前并没有获得很大的市场声量,客户拓展也很缓慢。
痛定思痛的谷歌,将 AI 研究原来的 PaLM 2,全线切换到 Gemini,并开始调遣精兵强将反击。今年 8 月,谷歌将谷歌大腦(Google Brain)和 DeepMind 两路人马合并,数百名 AI 精兵开始疯狂冲刺,才有了 Gemini 的诞生。
从如今公布的参数和使用效果来看,谷歌的 "AI 家底 " 还是不菲。Gemini 发布后,谷歌算是可以扬眉吐气了。
而 Gemini 发布的当下,全球的 AI 大模型竞赛进入了新一轮竞争,战局又变得面目模糊。
虽然 OpenAI 占有先机,通过 ChatGPT 获得了大量训练数据反馈,谷歌也依然有着自己的优势。The Information 此前报道,Gemini 至少在一个方面比 GPT-4 强:除了来自网络的公共信息之外,Gemini 还利用了来自旗下产品的大量 Google 专有数据。因此,在理解用户特定查询的意图时更准确,而且错误答案(即幻觉)也似乎更少。
不过,即使 Gemini 放出来的效果惊人,但现在的谷歌还不是特别有底气,Gemini 的实际应用效果也有待验证。
据 CNBC,Gemini 发布前,谷歌还是犹豫不定,曾多次推迟发布日期,如今又因为市场压力突然决定发布。谷歌的高管们在媒体沟通会上表示,Gemini Pro 的性能优于 OpenAI 的 GPT-3.5,但回避了有关 Gemini 与 GPT-4 相比的问题。
TechCrunch 更是直言:"Gemini 并不是我们所期待的大模型 ",表示谷歌有点吹嘘过度。虽然 Gemini 在 30 项测试中都获得了最好成绩,但实际上,很多项都是略略高于 GPT-4 和 GPT-4 with Vision 等模型而已。
作为大公司,谷歌要想继续追赶,困难还有很多。The Information 表示,谷歌正在努力解决在非英语查询等任务上的困难,并且内部对 Gemini 的提前发布意见不一,对 Gemini 的盈利策略也没定下来,商业化难办。
而在 OpenAI 那边,因为董事会解雇 CEO 又回归的戏码,公司尚在艰难的 " 灾后重建 " 中,刚推出的 GPT 高级版无限期暂停,GPT 商店更是延后到了明年。此前,OpenAI 还放弃过一个重要大模型项目 Arrakis 的训练,侧面反映了还有不少技术难题等待解决。
如今,一些新势力也悄然冒头。比如马斯克的 xAI 就进展飞快,正在计划融资 10 亿美元,接下来一周内,还会向订阅会员上线使用权限。
在欧洲,也出现了立志再造 OpenAI、" 开源一切 " 的 Kyutai,以及 Mistral AI 等公司,后者也同样是由来自 Google、Meta、Hugging Face,曾经深度参与过 Llama 研发的尖端人才参与创立。
这场 AI 新势力的竞赛,真是越来越精彩了。