苹果Vision Pro头显AI助手来袭：会调酒、能打麻将，甚至能开飞机 - 大酷樂

今天小编分享的科学经验：苹果Vision Pro头显AI助手来袭：会调酒、能打麻将，甚至能开飞机，欢迎阅读。

要是苹果 Vision Pro 头显加上 AI 助手，有多强？

南洋理工大学与微软雷蒙德研究所带来一个震撼概念演示。

人在飞机上，不知道怎么降落？带上头显把画面传给 AI，就能一步一步你操作。

这个多模态 AI 助手名叫 Otter（水獭），以视频为输入，能完成多模态感知、推理、和上下文学习，也经过专门的遵循指令训练。

更贴近生活一些的场景，在麻将桌上，Otter 分分钟教你胡几次大的。

‍而当你锻炼身体时，Otter 可以充当你的计数器。

调酒师小哥忘记配方时，也能分分钟化解尴尬。

总之，它可以实时识别现实场景并回答人类提问，而且简直就是个全能选手。

Otter 一共支持八种语言，中文也包括在内。

训练过程中，团队专门使用了适用于 AR 头显的第一视角视频，宣传上也明示就是为苹果头显准备的。

不过也有网友发现了华点。

结果，Otter 在各测试项目上的平均成绩比传统的 MiniGPT-4、OpenFlamingo 等传统模型高出十余个百分点。

如何实现

Otter 使用视觉识别模块分析场景信息，并结合 ChatGPT 生成答案。

其中核心的视觉模块是基于改进版本的 LLaVA 进行训练的。

Otter 整体的工作流程大概是这样的：

首先要对视觉信息进行处理，并结合系统信息生成 prompt。

生成好的 prompt 会被传递给 ChatGPT，得到指令 - 回应数据。

这样得到的答案再经过一步筛选器筛选之后，由 ChatGPT 翻译成用户选择的语言并输出。

在主线流程之外，团队还引入了冷启动机制，用于发现数据库中可用的情景实例。

接下来，让我们看一下当中最关键的环节，也就是视觉信息的解释。

为了训练 Otter，研究团队专门提出了MultI-Modal In-Context Instruction Tuning（多模式场景下的指令调整）数据集。

MIMIC-IT 涵盖了大量的现实生活场景，而且不同于传统的 LLaVa 等只有一张图片和语言描述的数据集，MIMIC-IT 包含多种模式。

Otter 中视觉识别模块的训练大致分为一般场景和第一人称视角下的场景两部分。

其中一般场景的识别又分为了四个步骤。

第一步是对场景化信息的学习，这一部中使用的是经过调整的 LLaVA 数据集。

对数据集中的每个指令 - 相应组，团队都基于文字或图片相似性为其检索了是个场景化实例。

为了更好地适应真实世界，下一步的训练主要是让模型发现影像之间的差别。

而这些差别又被分为了一般差别和微小差别两种类型。

对于一般差别，通过 prompt 让 ChatGPT 进行影像分析和物体检测生成注释。

而对于微小差别，则使用自然语言描述作为注释。

拥有了发现差别的能力之后，就要让模型尝试着 " 讲故事 " 了。

由于影像注释无法直观反映时间线等要素，研究团队让 ChatGPT 充当观众并回答一系列问题。

每一个场景之中都包含影像和对应的指令 - 响应组。

为了扩展模型的视野，研究团队还让它学习了包含大量说明的长视频片段。

说明信息包括视频内容、人的动作和行为、事件发生的顺序和因果关系等。

为了增强模型的社交推理能力和对人物复杂动态行为的理解，研究团队最后把电视剧作为了训练材料。

介绍完一般场景，我们再来看看第一人称场景又是如何分析的。

第一人称场景既包括视觉上直观看到的内容，也包括观察者的内心感受。

研究团队从 ScanNetv2 数据集中搜集了一些场景并进行采样，转化为多个第一人称视角的二维视觉信息。

研究团队还让 ChatGPT 基于隐式设定的人物性格指导人类的行为，为模型生成训练数据。

作者简介

研究团队的成员主要来自南洋理工大学 S 实验室，第一作者是该实验室的博士生李博。

2017 年，李博获得中国大学生编程比赛银奖。

2018 年至今，李博先后在滴滴、英伟达、微软等机构先后从事研究工作。

李博的导师刘子纬助理教授是本文的通讯作者。

此外，微软雷蒙德研究院首席研究员 Chunyuan Li 也参与了本项目。

Otter 的介绍视频在 B 站也有发布。

在线体验：

https://otter.cliangyu.com/

论文地址：

https://arxiv.org/abs/2306.05425

GitHub 页面：

https://github.com/Luodian/Otter

熱門排行

王治郅：杨瀚森主要的问题是速度他郟君昊 | 2025-05-05
贸易战烧进电影院：特朗普拟重税打击習又夏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天寸飛蘭 | 2025-05-05
手机电池突破8000mAh？硅碳技术的回衛青柏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天繁綺文 | 2025-05-05
任天堂对Genki提起Switch 2商标侵郜萌運 | 2025-05-05
哪吒汽车APP和官网恢复正常知情人袁曼雁 | 2025-05-05
极越汽车 CEO 夏一平名下青岛/义乌集玲琳 | 2025-05-05
全国经济第一大省明确，推动组建农商佼昌翰 | 2025-05-05
桑保利：亚马尔有配合意识&有点像梅甄正浩 | 2025-05-05
高露现身上海虹桥机场黑色外套点缀亮色爱心装饰俏皮亮眼惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最强芯袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表情庆祝賁芳蕤 | 2023-05-02
曹操墓，里面都有啥？衛青柏 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露面賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花板”？謝飛揚 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖尿病人集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游戏+AI”能否逆风翻盘？衛青柏 | 2023-05-04
信用风险释放趋缓，结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望袁曼雁 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15日寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修正案集玲琳 | 2023-05-02
解除资格！停止一切合作佼昌翰 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
3699起联想小新mini主机上架 13代酷睿标压处理器習又夏 | 2023-05-05
前董事长被免，天山生物全面进入“中植系”时代？股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
事关农村土地承包和农民权益，《农村土地承包合同管理办法》5月1日起施行郟君昊 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线涨幅汇总袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，官方通报袁曼雁 | 2023-05-03
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的生活》证实将停办佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《与凤行》…在路上了惠惠君 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊带裙大秀好身材嬴覓晴 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，不容小觑幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02