原生多模态AI大模型或更适合教育，谷歌称Gemini数学、物理等方面超越人类专家

今天小编分享的教育经验：原生多模态AI大模型或更适合教育，谷歌称Gemini数学、物理等方面超越人类专家，欢迎阅读。

谷歌 Gemini 的出现或将打破现有大模型格局。

来源|多知网

作者 |王上

图片来源 |Gemini

12 月 6 日，谷歌宣布将推出其认为规模最大、功能最强大的人工智能模型 Gemini ( 双子座 ) ，试图超越 OpenAI。尤其是 Gemini 的演示视频在全网刷屏，引发热议。不过，评论两极分化。

即便如此，谷歌母公司 Alphabet 股价周四大涨超过 5%，报收每股 136.93 美元。

谷歌首席执行官桑达尔 · 皮查伊 ( Sundar Pichai ) 在一份新闻稿中表示：" 这是令人难以置信的势头，然而，我们才刚刚开始触及可能性的表面。这个新时代的模型代表了我们作为一家公司所做出的科学努力之一。"

谷歌 DeepMind 产品副总裁 Eli Collins 在新闻发布会上表示，这是第一个在解决数学、物理、历史、法律、医学和伦理等某些基准方面超越人类专家的人工智能模型。

谷歌称 Gemini 是多模态的，即可以同时识别视频、影像、文本和语音。不过， Gemini 暂时只会以文本、语音或代码形式回复。

根据视频演示，Gemini 与 ChatGPT 最大的不同是，可以在线上和线下进行多模态的互動。在此之前，各大模型的多模态并未完全实现。

DeepMind 创始人、Google DeepMind 首席执行官 Demis Hassabis 接受《连线》杂志采访时提到，Gemin 是 " 原生多模态 "，而其他大模型是 " 近似多模态 "。意思是 "Gemini 从一开始就是多模态的训练，而其他模型是视频、影像、文本和语音等单独的模型，然后拼装到一起。"

在视频演示中，工作人员在纸上画了一只蓝色的鸭子，Gemini 马上能识别出是一只鸭子，但它很快说这只鸭子的颜色不真实，然后，它还给出了 " 鸭子 " 在全球的不同发音，包含英语、法语、中文等语言的发音。Gemini 还展示了在杯子转换游戏中追踪球，识别手影戏手势，重新排列行星素描等。

如果 Gemini 能实现多模态互動，那么对教育来说将极为便利。比如让 Gemini 识别数学作业，它能说出对错，相当于及时批改，也能对数学题目进行讲解。

在一个视频演示中，谷歌展示了如何使用 Gemini 来帮助完成物理作业，逐步解决工作表上的问题，并指出已填写答案中可能存在的错误。

不过，根据美国科技媒体 TechCrunch 今天的报道，称 Gemini 的演示有剪辑的成分，作者认为 Gemini 的反应速度太快了。对此，谷歌回应称，" 这个视频展示了 Gemini 的真实输出，但我们对演示进行了一些剪辑。"

也就说，谷歌演示了 Gemini 的技术和未来趋势，但是，目前，Gemini 的使用体验暂时还没有视频展示的那么流畅。

根据谷歌介绍，Gemini 将包括三种不同的套件：

1）Gemini Ultra，功能最强大，适用于高度复杂的任务。

2）Gemini Pro，适用于多种任务。

3）Gemini Nano，适合想要构建 Gemini 支持的应用程式的 Android ( 安卓 ) 用户。例如，借助 Gemini Nano，人们现在可以总结使用 Pixel 8 Pro 手机上的录音机应用程式进行的录音（但仅限英语）。

Eli Collins 强调，在 30 项衡量影像理解或数学推理等能力的基准测试中，Gemini Ultra 性能 " 远远超过 " 其他最先进的模型。

当前，谷歌正在分阶段推出 Gemini，谷歌的人工智能聊天机器人 Bard 已经开始使用 Gemini Pro 的微调版本，为聊天机器人有了更先进的推理和理解能力以及其他功能。Gemini Pro 支持的 Bard 仅提供英语版本，在 170 多个国家 / 地区可用。谷歌表示，巴德将于明年与 Gemini Ultra 整合。在接下来的几个月中，该公司将在其他应用程式中添加 Gemini，包括搜索、Google Ads 和 Chrome 浏览器。

谷歌 Bard 的副总裁 Sissie Hsiao 在新闻发布会上表示，Gemini Pro 在 8 个行业基准测试中的 6 个中优于 GPT-3.5 。Google 最先进的模型 Gemini Ultra 在八项基准测试中的七项中击败了较新的 GPT-4。

不过值得警惕的是，大模型有一个问题是会产生幻觉，指的是一些人工智能模型在面对某些输入时，会生成不准确、不完整或误导性的输出。Gemini 可以避免这个问题吗？谷歌 DeepMind 产品副总裁 Eli Collins 在新闻发布会上说：" 大模型仍然会产生幻觉。"

一年前，OpenAI 发布 ChatGPT 后，科技巨头们纷纷推出自己的聊天机器人和大模型，以与这家人工智能初创公司竞争。谷歌最近对 Gemini 的评估表明 OpenAI 的竞争对手正在迎头赶上。

可以看到，全球大模型军备竞赛愈演愈烈。谷歌 Gemini 的出现或将打破现有大模型格局。

相关阅读：

基于大模型，谷歌搜索上线口语陪练功能

有了语音和影像功能后，ChatGPT 将能批改作业了、讲故事了！

星火大模型 V3.0: 可以辅导学习，可以心理咨询，家庭陪伴机器人也同步上线

MathGPT 大模型发布：落地学而思 AI 学习机

评测 | 和有道虚拟人 Echo 狂飙英语后，上头了

作业帮大模型命名 " 银河 "，将落地智能硬體

李彦宏：文心一言对标 ChatGPT？门槛很高！