今天小编分享的科技经验:CES观察:AI无处不在,但大语言模型的主要应用场景仍停留在聊天,欢迎阅读。
文 / 腾讯科技 郝博阳
2024 年的电子 " 春晚 " 的 CES 落幕了,四天的展会吸引了超过 13 万观众的参与,恢复了疫情前的繁华。很多展台之前都排起等待参观的长龙,人头攒动。那些吸引最多人流的站台往往都有个明显的标签—— AI。
展会之前,Moor Insights & Strategy 的资深分析师 Anshel Sag 就表示," 在去年的 CES 上,AI 还没有权力开火,如果你认为 AI 是去年的浪潮的话,那今年它就是海啸。"
AI 确实如海啸般汹涌的卷过 CES 的会场。电腦厂商从联想到 ROG,家电厂商从三星到海信,汽车厂商从奔驰到大众,几乎每家大企业的展台中都有一个或大或小的区網域专门介绍 AI 方面的更新。
然而实际体验下来,从电腦到到小家电之间,AI 化的程度存在着不小的差异,但对于席卷全球的大语言模型而言,几乎所有的产品都只能算是浅尝辄止。只能说有了,但很难说它和产品已经有了比较成功的融合。
这次腾讯科技将根据 CES 现场的观察和与厂商的交流,分别针对 AIPC、手机端 AI、AI 上车、家电 AI 化和机器人这几个本届 CES 上 AI 相关性最高的领網域逐一进行阐述。
AIPC:现阶段只是能用 AI 的 PC
行业认为,2024 年将成为 AI PC 年,从联想到 Intel 今年都在讲 AI PC 的故事。但在今年的 CES 上,我们看到的更多是像 HP Spectre x360 14 一样只是装载了 AI 芯片的 PC;或者是如戴尔 XPS 13、联想 Yoga Pro 9 等,在 PC 上多設定了一个直接唤起 Windows Copilit 的按键而已;走得最远的,是联想在端侧直接内置了 AI NOW 大模型能力的尝试。
正如联想 CEO 杨元庆在 CES 过程中的采访中所说,当下的 AIPC 还处于 AI Ready 的阶段,也就是把硬體提升到支持大语言模型的阶段。而现实是,更好的产品 AI 化体验和 AI 应用的成熟的 AI ON 阶段还没有完全到来。
Dell XPS 13 上的 Windows Copilit 按键
手机 AI:半年前发布会上的饼刚熟
手机上的 AI 与系统融合进度也相对缓慢。
在 CES 谷歌的展台上,到处都有 AI 的身影,但还是和半年前 Palm 2 发布会上所带来的惊喜差距不大。
如魔法相机,用户可以移动照片里的对象或者更换环境光色;智能回复功能:你可以让 AI 替你回电话或者自动生成几种不同情绪和态度的回复文本。
当有人问谷歌站台的工作人员 "Bard 现在有内置 App 吗?" 以及 "Bard 能否关联到手机的本地信息?" 时,得到的答案都是否定的。
这也许是因为手机算力的限制。本届展会上谷歌用来展示其 AI 能力的设备主要是其最新的手机系列 Pixel 8,它所搭载的 Tensor G3 虽然在 AI 能力上做了一些提升,但相对于竞品的苹果 A14 或骁龙 Gen8 3 在性能上仍有很大差距,预期能本地运作的大模型参数不会超过 4B 参数。
至于几个月前 Youtube AI 就宣布的创作工具,我们在 CES 展会上能看到的仍然是只能作为视频演示的 beta 版本,且三项演示的功能分别为智能声音降噪、智能分辨音乐节奏点和智能字幕,确实有些新意不足。它的主要竞品剪映在至少一年前就上线了这三个功能中的两个。
其他手机厂商在系统中展现的 AI 能力也都比较平庸,ROG Phone 8 Pro 主推的 AI 功能也是 AI 自动生成桌面,人工智能降噪这些不疼不痒的应用场景。
谷歌在 CES 上的智能回复功能展示 摄影:腾讯科技
汽车 AI:上了车,但还没完全起步
在汽车领網域,AI 融合的阶段和 PC 相对类似:大模型上了车机,但主要的应用还是作为语音助手。它可以调用起地图、娱乐系统等车上应用,但这也是大模型上车之前那些 NLP 语音助手就已经拥有的能力。
AI 上车最简单粗暴,拿来主义的方式就是接入现有模型。这种模式的核心范例就是大众汽车,其最新的 ID3、4、5 系列将是第一款接入 ChatGPT 的汽车。宝马汽车也类似,只不过接入的是亚马逊的 Alexa 大语言模型。
除了简单的 AI 上车机之外,奔驰对 AI 的调教相对走得最远。它在 CES 最新发布的车机系统 MBUX 是基于 MB.OS 作業系統打造,具有四个 " 性格特征 ":自然、预测、个性和同理心,可以和用户像朋友一样交流。
虽然奔驰未透露该模型的合作方,但这些描述能让人首先想到 Inflection AI(它是一家同样强调有同理心的 AI 助手的大模型公司,是 OpenAI 的主要竞争对手之一)。但奔驰并没有开放 MBUX 的实机测试,因此也无法评价它的实际体验到底如何。
高通在它骁龙数字底盘概念车系统展现了 AI 与汽车定制化结合的更具体范例。这款系统提供了基于 Llama2 和 Whisper 的纯端侧大模型能力,除了一般的对话娱乐功能外,AI 的定制化展现在它对车况的了解上:当你的汽车出故障的时候,它能语音告诉你故障显示的意思和准确原因,而且还会给你建议最近的维修店地址。
但这一了解似乎主要出自于某种故障排查手册,而非对整车情况的实时监控。所以虽然进行了融合,但还只是最初步的融合,很难带来真正体验上的提升。
在高通车机系统上,AI 调出的故障手册 摄影:腾讯科技
家电 AI:撑不起大模型的硬體,用助理机器人做外挂
在家电领網域,AI 和家电功能性的融合的点更多,整体逻辑也更成熟。但很主要来自对之前智能家具能力的更新,而非对新诞生的大模型的应用。原因其实很明确:对于一款主要功能并不是和用户聊天的家电产品来说,要用高成本的 AI 芯片来接入大语言模型实在太不经济。
比如 AI 口号喊得最响,乃至打出了 "AI for All" 招牌的三星,在 CES 展出了 AI 融合明星产品 BESPOKE 冰箱:它的 AI 融合点在拥有一整套 Family Hub 智能系统,可以通过内置摄像头 + 影像识别 AI 冰箱内的物体,提醒用户食材数量大概还能食用多久 , 还可以通过选择几种食材在社区中为你推荐相关菜谱。然而这些功能中能和 AI 挂钩的就只有影像识别部分。至于看起来很 AI 的对话功能则是通过它内置的语音助手 Bixby 完成的,这个系统初代版本可以追溯到 2017 年,和 Siri、微软小冰的定位一致,是当时很流行的手机语言支持系统,在家具智能化的大潮之中逐渐普及到三星的家电用品上的。
考虑到当下的家电芯片算力,也许它会在未来几年内与大语言模型产生结合,但在现下的版本中它应该还是由 NLP 专家模型主导,只能有效回答固定的命令。
三星的 BESPOKEN 冰箱 摄影:腾讯科技
三星的另一款不那么受关注的产品更好的显示了 AI 处理能力与传感器融合的倾向:BESPOKE AI 洗烘一体机,这台洗衣机可以根据其内置的重量、视觉、湿度传感器去判断需清洗衣物的质料、量和污浊程度,再将这些信息传输给 AI 系统用以调控水量、温度、清洗强度和时间。AI 在这里和更多的传感器融合,获得了更全面的感知能力,进而能做到更复杂的控制。但和 BESPOKE 冰箱一样,它的对话和控制系统也不是基于大语言模型的。
另一个 AI 化倾向明显的产品领網域是电视。LG、三星、TCL、海信等电视品牌今年都推出了 AI 芯片驱动的电视。AI 带来的一个主要能力是 Upscale,也就是画质升格。LG,三星的电视今年都支持将 4k 画质提升到 8k 画质。这一功能对于目前在主推 8k 电视的高端电视品牌来讲确实很有价值,因为现有流媒体中 8k 片源非常稀少,买了 8k 电视也没有用武之地。这一最新的画质升格技术确实用到了深度学习和 GAN 神经网络,因此必须借助 AI 芯片才能达成。但它依然和大模型的关联也并不大。
以上的这些产品都在应用层逻辑上找到了与 AI 能够结合的方向以及可适用的场景,但都还没在应用到大语言模型。
但有一个现象值得关注:这些家电厂商陆续开始推出私人助理机器人。
在这次 CES 上,LG 推出了 Q9 机器人,三星则针锋相对的更新了 Ballie 机器人,定位都在家庭私人助理。在两个厂商的讲解和展示中可以确认这些机器人都确实装载了大语言模型;他们能够完成相对复杂的互動,理解乃至通过感应系统预判用户的需求(比如你在健身时从站着变成横躺,那它就会把投影投向屋顶),并可以调用智能家居中的其他一切设备用最合适的方式来完成用户的需求。
这可能就是家电厂商对 AI 智能化成本的解决方式:与其所有的产品都使用高成本的芯片,不如就做一个统合助理来调用所有智能家电产品。
除此之外,据两家厂商宣称,它还可以通过学习用户的个人习惯和偏好,来更好地做出适合其情感或生活需求的判断,而这一功能目前连 ChatGPT 都还做不到。
这两款机器人目前都是概念阶段,比如 Ballie,从它 2020 年第一代展示到现在从没有任何发售的迹象,但它们展示出了是当 AI Agent 实体化后所能给我们生活带来的改变。
这也是我们在这场展会中看到的最接近 AI 真正融入电子产品后的一种样态之一。
三星展台的 Ballie 在投影菜谱视频 摄影:腾讯科技
机器人 AI:大模型还在实验室里
在今年 CES 的机器人展区中的机器人很多,但并没有出现借由大模型训练的机器人。这本来是今年学术界的一个热门方向,如今年李飞飞团队带来的基于语言模型训练的机器人 RT2,斯坦福大学另一组团队做出的火爆全网的 AI 机器人,都能自主学习,完成多任务。但可惜的是,他们应该都还在实验室里。
在 CES 展区中,有来自 Richtech Robotics 的双臂机器人 ADAM,这引来微软 CEO Stella 围观的开普勒人形机器人和宇树科技的 H1 人形机器人这样偏向传统意义的动力型 / 工业型机器人,虽然在灵活程度和机械协调性上表现的更加出色,但和这波 AI 浪潮的关联并不强。其智能处理能力主要来自于编程或传统机器学习方法训练,而非大模型。
微软 CEO Stella 参观 CES 上的开普勒人形机器人
CES 上,我们能看到的四个趋势
毫无疑问,在本届 CES 上,AI 与各种场景的融合都在加深,这种融合从各个方面都在提升着智能产品的能力。但带来 AI 浪潮的大语言模型在其中扮演的角色却并不那么重要,目前的阶段,只是将生成功能简单地平移到各个场景中去,而非深度融合。
尽管如此,但本届 CES 毫无疑问是应用层面上将大语言模型从网页、手机上进入实体生活的第一次地集中展示,同时也给 " 生成 AI 融合万物 " 的未来期许开了一个好头。从这些 " 实体化 " 了的 AI 中,我们能够一些未来潜在的趋势。
趋势一 . 传感器与 AI 的深度结合
在现有的大语言模型中,AI 获得的信息大多来自预训练的文本或者影像。但在实际生活用例中,场景中的信息是较之影像、声音和文字更多元的,比如温度,重量等。部分传感器提供的是影像或影像信息的抽象(雷达),是可以被多模态模型直接应用的;而更多传感器提供的是多元环境数据信息,对整合文字、声音、影像、视频这四个最主要人类感知信息源的多模态模型提供盒更多了环境信息的补充。有了传感器的结合,AI 才有了真正的环境理解能力和在场性。
目前的大语言模型在这方面的实践还很初期,虽然它可以理解用户的部分意图并作出判断,但环境信息的接收有限,能将环境和应该做的操作联系起来的路径还没建立。这也是为什么它在当下和产品结合时更多让人感觉飘浮和分离的重要原因之一。
从三星 BESPOKEN 洗衣机那里,我们可以想象当大语言能够真的依靠传感器在多模态的应用上取得进一步突破,我们将进入一个全新的智能化领網域。
趋势二 · AI 的进一步偏好个人化
在今年的 CES 上很多车机或者家电公司都强调要通过 AI 给用户带来更个人化的体验,不论是在情绪还是在生活偏好上的体验。但当下的 AI 个人化在很大程度上是基于 AI 对文字表达需求的理解上的,但很多人的偏好可能是通过行为,而非语言表达的。只有在具体的需求场景下,AI 才有可能通过观察人类行为的信息并推断出相应的偏好。这是创造一个真正的理解你的个人 AI 助手的核心需求之一。为了达到这个目的,AI 的发展会在后续持续向这种可能性进发。
趋势三 .AI Agent 作为一个统合的入口
今年在 CES 上最火爆的 AI 产品就是 Rabbit R1,它的底层逻辑就是通过 AI Agent 的能力将某一个应用或者设备变成所有应用的入口。
Rabbit R1
这个逻辑其实和亚马逊的 Alexa,上文提到的 Ballie、Q9 智能家居助手都很像,用一个 AI 系统调起所有自己支持的 API(智能家居,车辆能力),并成为用户意图和多产品功能之间的中转站。
在腾讯科技在 CES 期间对高通副总裁 Zarid Asghar 的专访中,他也认为 AI 在后续发展中会成为作为一切应用的入口,由此诞生出新一代的 AI 智能设备。
Rabbit R1 正是走在这条路上,我们认为,这也将成为后续 AI 智能设备发展的的主流方向。
趋势四 . 发掘大语言模型聊天之外的潜力,找到更具体的场景应用
大语言模型在语言互動、知识检索之外有一个很强的泛化能力,即统合信息进行预测。
当这些信息是一些非语言,或者我们难以理解的语言时,预测在很大程度上就成为了翻译。比如很多科学家试图利用大语言模型理解鲸鱼、狐狸的语言并取得了一定的效果。
今年的两个非常有创意的 AI 产品都是基于大语言模型这一能力的使用的。比如获得了 CES 今年创新大奖的 Anura MagicMirror,它就是通过其情感技术 DeepAffex 识别并分析人的面部血流,将其转译为包括血压各种健康指数,并预测患病概率的产品。
Anura MagicMirror
另一个更直接利用这种转译的产品是 Cappella,其手机应用程式可以基于大模型 " 翻译 " 宝宝的哭声,告诉你他们是饿了、不舒服、累了还是需要换尿布。Cappella 声称,利用人工智能和机器学习来解读婴儿的需求,其技术的准确率约为 95%,而对于试图猜测婴儿需求的人类来说,准确率约 30%。
所以,其实除了聊天之外,大语言模型逻辑下的 AI,还是有很多应用逻辑和场景有待发掘。期待在明年的 CES 上,会有更多企业能发现这些可能性,让 AI 真正进入数字设备中。