今天小编分享的科技经验:LAM大动作模型兴起!这才是我们想要的AI!,欢迎阅读。
在悄无声息中,具有里程碑价值的 GPT-3.5 问世已满一年。在这一年的时间里,我们不仅见证了,还亲自参与了科技界的历史性变革。基于大型语言模型(LLMs)的各种 AI 对话应用已经遍布我们生活的每一个角落。许多人已经不再依赖于打开搜索引擎来解决问题,而是转向与 AI 对话寻求答案。
By Midjourney
但也有不少小伙伴在使用过一段时间后,觉得有些无聊。确实,当前的 AI 虽然可以在对话框中跟你侃侃而谈,而却不能帮你解决一些实际问题。比如说帮你订个飞机票,叫个出租车,或者当你想要在 PS 中把这个照片的背景 P 掉的时候,这些对话框只会给你具体操作的步骤,却不能帮你去完成。不少用户渴望的是一个更能动手实际操作的 AI,不仅能够提供信息,还能够执行具体任务。
懒,才是人类的第一生产力。正是这种对舒适与便捷的渴望,孕育出了一系列划时代的产品。如今,为了满足人们希望 AI 能够协助解决实际问题的愿望,大型动作模型(LAMs)应运而生,它们的目标是让 AI 的能力不仅限于提供信息和执行虚拟任务,而是扩展到现实世界的物理动作中,进一步释放人类从日常琐事中的束缚。
By DALL-E 3
在 2023 年 12 月初,一家创新的研究团队 Rabbit 抢先发布了他们的首个大型动作模型系统—— Rabbit OS。
图片源自互联网
Rabbit 团队阐述,Rabbit OS 并不是建立在像 ChatGPT 这样的大型语言模型上,而是创新性地构建在 " 大型操作模型 " 之上。它在概念上与 Google Assistant 类。Rabbit OS 能够通过一个统一的界面来实现音乐控制、点个外卖、打个滴滴、买个飞机票、买张电影票,给女友买束花以及购买生活必需品等多种任务。用户不必切换不同的应用程式或者重复登录——只需告诉 Rabbit OS 你需要什么,它就能帮你搞定。
这个 LAM 的概念发布之后,就引起了老外的强烈关注,毕竟这个逻辑链是完全正确的,当 LLMs 已经成熟的时候,人们只需要与 AI 对话,AI 便可以准确清晰地理解你的意图,并直接通过 LAMs 实现你想要的现实操作。
于是 Rabbit 顺水推舟地发布了,旗下第一款加载了 LAMs Rabbit OS 的 Rabbit R1。
Rabbit R1 看起来有点像是过去 90 年代的旋钮电视的缩小版,圆润外观是与知名设计公司 Teenage Engineering 的深度合作成果,正面左侧 2/3 是螢幕,另外一部分是控制区与摄像头,看起来非常具有复古感。
设计紧凑,体积仅为 iPhone 一半大小的 R1,搭载了一块 2.88 英寸的触摸屏,并配备一个旋转摄像头,可以轻松拍摄照片和视频。此外,通过独特的滚轮 / 按钮,用户可以方便地浏览内容或与设备内置的助手进行互动。
性能方面,Rabbit R1 内置了一颗 2.3GHz 的联发科八核处理器,使用了 4GB+128GB 的存储组合,对于这种小型设备来说,性能足够用了。
这款设备售价为 199 美元(约折合 1450 元人民币),对于一款新公司的初代产品来说,这个价格已经是非常良心了,初代量产的 1 万台,也于发布后的当天下午售罄。
那么,Rabbit R1 可以帮用户干什么呢?根据已经上手过的老外介绍,Rabbit R1 是一个语音互動式智能设备,用户无需打开应用程式,直接通过物理按键与其对话互動,就可以实现手机上音乐軟體开始播放或自动打车等,有点像是对讲机的实现逻辑,仿佛对讲机对面真的有一个私人秘书在帮你实现这一切。
Rabbit R1 将应用程式与用户的在线账户连接起来,并使用其自研的大型动作模型来解析语音命令,辅以 GPT 语言模型(主要负责转换人类的指令为文本并进行解读)来完成任务。它允许用户通过语音指令定制个性化操作,无须开发特定的 API。该设备的动作模型通过分析人与应用程式的互动来学习操作方法。
让 AI 从对话框走向现实,这可能就是 Rabbit 开发 LAM 以及发布 Rabbit R1 的意义,实体化的操作逻辑与独特的动作学习功能,让 Rabbit R1 在海外的好评不断。
在这个 AI 迸发的时代,各大 AI 科技公司都推出了自己的大型语言模型(LLM)应用,如 GPT、Bard 以及国内的文言一心、月之暗面、通义千问等,这些产品的多样性往往让用户感到困惑。而 Rabbit 的策略则完全不同,它通过一个界面连接不同的应用,以解决用户的实际问题,类似于一个多功能的超级应用程式,用户可以通过这一平台完成几乎所有的任务,体验一站式的便捷 AI 服务。
展望未来,我们期待地看到 LAMs(大型动作模型)的集成范围扩大到更多的智能家居设备、智能汽车和智能公共设施中。这种融合有望实现真正的人机对话——用户只需简单发出口头指令,设备便能自动识别、理解和执行所需的操作。这将是一个巨大的跃进,将极大地提高生活的便利性和效率,而且还将为残障人士和其他需要辅助技术的群体提供更大的自主性和支持。