今天小编分享的互联网经验:多模态抢占C位,成为AI企业的“应许之地”?,欢迎阅读。
文 | 极智 GeeTech
须知参差多态,乃是幸福本源。——罗素
人工智能占领世界,多模态统治人工智能。
从 OpenAI 发布 GPT-4o、谷歌亮出 Project Astra 到马斯克新一代大模型 Gork-3,再到智谱 AI 自主智能体 AutoGLM、DeepSeek 开源模型 Janus-Pro,以及智元机器人的启元大模型 GO-1,这些模型背后,无论科技巨头还是科技新星,都瞄准了同一个方向:多模态 AI。
谷歌研究报告显示,预计至 2025 年,全球多模态 AI 市场规模将飙升至 24 亿美元,而到 2037 年底,这一数字更是预计将达到惊人的 989 亿美元。
资本也用真金白银对多模态投下了 " 信任票 "。根据全球金融追踪机构 PitchBook 发布数据显示,2024 年,生成式 AI 领網域的融资活动异常火爆,全年融资总额高达 560 亿美元,同比增长 192%。其中 OpenAI 融资总额 81 亿美元,Anthropic 完成 75 亿美元融资,xAI 共募集 120 亿美元资金。这些投资主要聚焦于多模态生成技术突破、大语言模型优化、计算效率提升等方向。
为什么全球 AI 企业选择集体押注多模态?多模态又将如何塑造未来十年的 AI 格局?
多模态重塑 AI 进行时
随着 AI 越来越多地与现实世界发生互動,增强多模态能力、提升推理效率、降低训练成本以及加强领網域专业性,正成为大模型新一轮演化的重要方向。
如果把大语言模型(LLM)比作 " 关在笼子里的 AI",那么它和世界互動的方式就是通过 " 递文字纸条 "。
文字是人类对世界的表示,存在着信息提炼、损失、冗余、甚至错误。而多模态就像是让 AI 绕开了人类的中间表示,直接接触世界,从最原始的视觉、声音、空间等开始理解世界、改变世界。
" 模态 " 一词最早是生物学概念,人类的 " 五感 " ——触觉、听觉、视觉、嗅觉、味觉,都是一种模态。从技术角度来说,模态就是感官数据,不仅包括最常见的影像、文本、视频、音频数据,还包括传感器等更为丰富的数据类型。
大模型经历了从传统单模态模型,到通用单模态,再到通用多模态的演进。
单模态 AI 的辉煌已经实现,如语言模型(如 GPT)、视觉模型(如 ResNet)以及语音模型(如 Wav2Vec)虽取得了耀眼成就,但现实世界的复杂性无法仅靠单一模态理解。
这是由于单模态 AI 只能处理某一种类型的信息,通过让 AI 学习互联网上的海量文本、图片等不同模态的数据,寻找其内在规律,但在算力、数据资源的限制下,仅依赖互联网的数据学习会很快达到瓶颈,难以全面理解和应对现实世界中多样化的信息输入。只有像人类一样多种感官信息相互补充,才能准确感知和理解世界。
为了让 AI 更接近人类的认知和互動水平,多模态技术应运而生。1971 年,美国心理学家艾伯特 · 梅拉宾(Albert Mehrabian)在著作《无声的信息》一书中提出,人类交流中仅有 7% 的信息通过语言传递,其余 93% 通过语调(38%)和面部表情、肢体动作(55%)完成。这一发现被称为 " 梅拉宾法则 ",又称 7-38-55 规则,成为多模态理论早期的重要基础。
随着 OpenAI 的 DALL-E/GPT-4o/o1/o3、DeepMind 的 Flamingo 等多模态系统的问世,让 AI 打破模态边界,不仅开始理解世界,还能生成跨模态的内容,这些进步标志着智能系统进入了一个全新维度。
简单理解,多模态 AI= 多种数据类型 + 多种智能处理算法。
这一系统整合了多种不同模态的数据,通过复杂的算法模型进行融合处理,从而使 AI 系统能够像人类一样,综合运用多种信息进行决策和互動。正是这种跨越不同模态理解和创建信息的能力,超越此前侧重于集成和处理特定数据源的单模态 AI,赢得了各大科技巨头的青睐。
多模态 AI 的核心在于多源数据的整合与对齐。通过将视觉、语言和声音转化为统一的潜在表示,让模型可以实现跨模态学习。例如,OpenAI 的 CLIP 模型通过大规模图文对比学习,掌握了语言描述与视觉特征之间的映射关系。
在更复杂的场景中,数据融合不只是简单叠加,还需解决模态对齐的难题。比如,语言中的抽象概念如何匹配影像中的具象特征?Transformer 架构的引入为这一挑战提供了技术支撑,其自注意力机制能够在多模态间捕捉深层关联,使模型具有更强的泛化能力。
从 BERT 到 Vision Transformer,再到多模态预训练模型(如 BEiT-3),Transformer 重新定义了 AI 的应用范围。以 DeepMind 的 Perceiver 为例,其通用架构适配了语言、视觉和声音数据,展示了强大的模态迁移能力。
对比学习和迁移学习技术同样推动了多模态 AI 的快速发展。例如,通过对比学习,模型可以更高效地在模态间捕捉相关性,即使在小样本数据下依然保持卓越性能。
而多模态 AI 的想象力,远不止于此。
激发真实世界理解力
从生成式 AI、自动驾驶、具身智能到智能体,多模态已经成为推动 AI 从 " 单一感知 " 迈向 " 全局理解 " 的核心。行业分析指出,多模态技术的突破正推动 AI 从工具向生产力转化,并进一步拓展商业边界。
2022 年及之前,大模型处于单模态预训练大模型阶段,主要探索文本模式的输入输出。
2017 年,谷歌提出 Transformer 架构,奠定了当前大模型的主流算法结构。2018 年,基于 Transformer 架构训练的 BERT 模型问世,参数规模首次突破 3 亿。2020 年 6 月 GPT3.0 的发布,标志着 AI 已经能够高水平地生成文字和代码。随后,2022 年 7 月,文生图领網域的标志性产品 Stable Fusion 问世。
2023 年,是大模型发展进程中一道重要的 " 分水岭 ",其从文本、影像等单模态任务逐渐发展为支持多模态的多任务,更为符合人类感知世界的方式。大模型公司的比拼重点转移为多模态信息整合和数据挖掘,精细化捕捉不同模态信息的关联。
例如,2023 年 9 月,OpenAI 推出最新多模态大模型 GPT-4V,增强了视觉提示功能,在处理任意交错的多模态方面表现突出。
2024 年,OpenAI 推出了首个文本生成视频模型—— Sora。相比 Runway、Pika 等主流视频生成工具,Sora 不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色,同时根据提示、静止影像甚至填补现有视频中的缺失帧来生成视频,堪称多模态 AI 领網域的一大里程碑。它展现了一个 " 会预测未来 " 的 AI 系统的雏形,让人们对通用人工智能的到来充满期待。
在提升对现实世界的理解方面,深度学习为多模态技术提供了强大支持。神经网络架构的不断创新,如卷积神经网络(CNN)在影像识别中的成功应用、循环神经网络(RNN)在自然语言处理中的出色表现,为多模态数据的特征提取和处理奠定了基础。在此基础上,研究人员进一步探索如何将不同模态的数据进行融合,开发出了一系列多模态融合算法。
例如,早期的多模态融合方法主要是简单的特征拼接,即将不同模态提取的特征向量直接连接在一起,然后输入到后续的分类或回归模型中。这种方法虽然简单直观,但未能充分挖掘不同模态之间的内在关联。
随着技术发展,出现了更复杂的融合策略,如跨模态注意力机制、模态间互動等。基于注意力机制的融合,能够让模型自动关注不同模态数据中重要的部分,并根据任务需求进行动态融合,充分提高了多模态融合的效果。这些方法使得模型能够更好地利用不同模态之间的互补信息,从而提高任务的性能。
随着深度学习的不断发展,尤其是预训练模型的兴起,也为多模态技术带来了新的突破。预训练模型通过在大量无标签数据上进行预训练,学习到了丰富的知识表示,使得模型在下游任务上具备更强的泛化能力。
在这一阶段,研究者们提出了多种多模态预训练模型,如 BERT-Vision、ViLBERT、LXMERT 等,这些模型在影像标注、视觉问答等任务上取得了显著的性能提升。之后,研究人员开始尝试将预训练思想应用于多模态领網域。
通过在大规模多模态数据上进行无监督预训练,模型可以学习到不同模态之间的通用特征表示,然后在具体的下游任务中进行微调,这种方式显著提升了多模态模型的性能和泛化能力。
可以看到,多模态技术的发展是 AI 技术不断演进的必然结果,它在融合多种模态数据方面取得的重要进展,为解决复杂现实问题提供了更有效的途径,这也是 AI 企业纷纷押注多模态技术的关键原因。
多模态到底解锁了什么?
" 跨模态任务需求 + 跨模态数据融合 + 对人类认知能力的模拟 " 是 AI 必然走向多模态的三大因素,我们正见证着 AI 从 " 工具理性 " 向 " 认知主体 " 跨越的拐点。
关于多模态模型的意义和价值,一个言论在业界广为流传:每多一种模态的解锁,意味着用户渗透率的进一步提升。
这句话背后的意义是:只有文字的人机互動是单一的,是被限制的。人机互動的未来必然是多模态的,AI 需要多模态理解真实世界和真实的人,人也需要 AI 提供文字以外的输出。
最典型的就是语音互動之于 ChatBot 这个今天使用最广泛的 AI 场景。今天越来越多 ChatBot 类的产品都已经加入语音互動功能,而在一些特定的使用场景下(比如用豆包等 AI 应用练习英语),语音互動就能极大地提升用户的使用体验。
从商业模式来看,多模态 AI 主要分为两种方式。
一种是向企业用户提供 API 接口,以模型即服务(Model-as-a-Service)的形式,企业可以根据自身需求调用相应的多模态 AI 模型进行处理。
另一种是将多模态 AI 模型嵌入到自身的产品和服务中,提供具体的解决方案。这两种方式都有着巨大的市场潜力,可以应用于各个领網域,如机器人、智能交通、智能制造、智能家居等。
当前,人形机器人作为 AI 技术与高端制造业的结合体,不仅具有高通用性,能适应人类社会基础设施,还因其性价比和广泛应用前景而备受瞩目。大模型等技术进步正推动人形机器人的泛化能力和自然语言互動能力快速发展。
据高工产业研究院(GGII)预测,2026 年全球人形机器人在服务机器人中的渗透率有望达到 3.5%,市场规模超 20 亿美元,到 2030 年,全球市场规模有望突破 200 亿美元。
在交通领網域,随着多模态大模型在多种场景中的适用性日益增强,市场对统一管理座舱功能的智能体需求日益增长。2024 年," 蔚小理 "、吉利等主机厂相继推出了 Agent 框架,以语音助手为切入点,实现座舱内功能应用的统一管理。Agent 服务框架的推出,不仅统一了座舱功能,还根据客户需求和喜好提供了丰富的场景模式,尤其是支持用户定制化场景,加速了座舱个性化时代的到来。
虽然现阶段已上车的 Agent 大部分还停留在助手、陪伴以及具体场景功能列举层面,但相比于大模型,Agent 拥有更大潜力,具备可激发的自主性和突出的工具使用能力,更加贴合 " 主动智能 " 标签,甚至能够弥补大模型在实际应用中的限制。
智能家居是目前少数保持高速增长的产业之一。根据 Statista 数据预测,到 2028 年,全球智能家居市场规模将有望达到 1544 亿美元,并且在 2024 年至 2028 年期间,该市场还将维持 67% 的高复合年增长率,这一增长趋势得益于多模态大模型与家居产品的逐步融合和应用。
互動型多模态大模型的嵌入使智能家电具备更高级的语音互動能力,这能够更准确地识别消费者需求,通过语音、手势和面部表情的自然互動,控制智能家居设备,甚至提供情感陪护和辅导孩子作业的功能,使家庭生活更便捷、更富有互动性。
未来,多模态大模型有望集成于端侧设备,在手机端与作業系統和各类 App 深度融合,可以接收用户的自然语言指令或根据用户所处环境即时调取合适的服务。例如,驾车时主动开启免提通话并打开导航。多模态大模型甚至可以作为中心枢纽,连接各种生态服务,如支付、健康监测、交通导航和在线购物,形成一个完整的智能消费生活圈。
当与 PC 端结合后,多模态大模型有望大幅提升企业的生产力和创造力,甚至可能创造全新的工作和创作方式。多模态大模型综合处理视觉、听觉以及文本信息,形成了全方位的认知系统,它作为 AI 助手,能够实时观察螢幕上显示的内容,无论是文档、影像还是视频,并且可以迅速捕捉并解析其中的信息。
这种能力使得它能够和用户进行更为自然和流畅的沟通,不再局限于简单的问答形式,而是能够参与到更复杂的对话中,理解用户的意图,提供更具针对性的建议,甚至还可以预测下一步的需求。
这场技术进化正以不可逆转的趋势,将 AI 推向智能涌现的临界点。未来 5~10 年,结合复杂多模态方案的大模型有望具备更加完备的与世界互動的能力,到那时,一切都将无比新鲜和令人惊叹。这不仅让未来的图景更加清晰且真实,也预示着人机共生时代正全面到来。