今天小编分享的互联网经验:Sora后观察:AI大模型产业落地的八个锚点,欢迎阅读。
图片来源 @视觉中国
文 | 产业家,作者 | 斗斗 ,编辑 | 皮爷
" 电影讲述了一名 30 岁男士的太空历险记,他身穿红色羊毛针织,戴着摩托车头盔,放眼望去只有蓝天和盐漠。请制作出色彩鲜艳的电影风格短片,用 35 毫米的胶片拍摄。"
这段提示词来自 OpenAI 首个文生视频模型 Sora 的介绍页面。在提示词对应的视频中,视频播放流畅、画质清晰、视频长度、连贯性、多镜头切换等方面的出色表现让人惊叹。
值得注意的是,在 Pika 发布产品后的短短不到 3 个月时间里,OpenAI Sora 在视频时长、视频画幅、扩展视频能力等方面就迈出了堪称 " 王炸 " 新一步。
资本市场显示,随着 AI 视频模型 Sora 的炸裂登场,A 股掀起 AI 热潮,盘中人工智能指数一度涨超 7%,多只个股涨停。
2024 年的大门,已然由人工智能大模型 " 文生视频 " 敲响。一个崭新时代正在来临。
过去的一年,从生成式 AI 的爆发性创新,到模型小型化与场景化应用的深度融合,再到开源生态的繁荣和跨领網域的协同效应,AI 大模型正以前所未有的速度重塑世界。
在这个历史性的轉捩點上,也在 Sora 出现的节点,我们试图深入剖析 AI 大模型发展的 8 个锚点:在已经拉开帷幕的 2024 年,AI 技术的发展标志将会是什么?将会在哪里?以及通向 AGI,当下的世界将会走出哪几条路?
毫无疑问,一轮新的 AI 生产力革命正在到来。
一、垂直模型走出来,加速大模型落地
一个市场共识是,在通用大模型领網域,鉴于高昂的研发资金壁垒,只有少数科技巨头有望在竞争中胜出,因为基础大模型对于需求多元的广大中小企业来说并不具备广泛适用性。
就目前来看,市面上的主流大模型厂商互联网厂商几乎占据半壁江山,例如百度文心大模型、阿里通义大模型、腾讯混元大模型等。
客观来看,通用大模型往往难以精准解决所有企业的具体问题,企业选择大模型时,关键考量因素还包括其对行业特性的契合度、数据安全策略、迭代更新能力以及综合成本效益等。
能够预知的是,今年大模型发展将会愈发呈现显著的细分化趋势,主要分为通用型、专用型以及针对特定场景设计的模型。
垂直行业的专业模型将在推动大模型广泛应用方面扮演重要角色,通过整合通用公網域数据与行业专有数据,共同构建起产业级大模型训练所需的数据基础。
例如,在医疗行业中,由润达医疗联手华为云研发的 " 良医小慧 " 就是一款专注于医疗检验领網域的垂直大模型,它基于盘古大模型和慧检检验知识图谱进行构建。同样地,在教育领網域,网易有道推出的首个经官方备案的教育垂直大模型—— " 子曰 ",已经成功应用于智能硬體及 App 产品之中。
来源:亿欧 · TE《AIGC 商业落地产业图谱 2.0》
供应链管理方面,企企通凭借其在数字采购方面的 " 多边赋能 " 战略,很可能已在探索或已研发出专门针对采购和供应链管理流程优化的垂直 AI 模型。在旅游行业,携程推出的首个旅游垂直大模型 " 携程问道 ",为用户提供全程智能化的服务支持,从出行前的规划到旅途中的服务再到行程后的反馈,都体现了 AI 技术对旅游业深度变革的影响。
这种行业垂直模型在新的一年里将成为技术突破之外的一个核心落地趋势,即专注行业、专注产业、专注垂直数据。如企业安全管理、财税管理等领網域,这些更为精密的领網域或将在 2024 年出现新的 AI 机会。
二、AI Agent,C 端 AI 应用跑向全面商业化
随着深度学习、强化学习等人工智能理论研究的发展,以及大模型如 GPT 系列、Alpha 系列等在实践中的成功运用,如今的 AI Agent 已经具备了较为成熟的知识表示、学习和推理能力。
从国外视角来看,如今 OpenAI 的 GPT-3 已用于生成代码、文本创作等多种场景,可以作为成熟的 C 端工具被人们使用,
除了单纯工具层面的使用,伴随着技术突破和应用逐渐落地,AI Agent 正逐步实现视觉、听觉、语言等多模态信息的综合处理,使其能够理解并适应更为复杂的现实环境,并应用于 C 端市场。
例如,谷歌提出的 CoCa 就是结合影像和文字理解的多模态预训练模型,其应用场景正在不断拓宽。在客户服务、教育、医疗、工业制造等领網域,基于 AI Agent 的智能客服系统、教学助手、诊断辅助工具、自动化生产线决策支持系统等开始规模化部署和应用。
此外,在 2024 年,还能明确看到的是 AI Agent 不仅体现在軟體工具层面的进步,也伴随着智能硬體设备(如机器人、无人机)的智能化更新,实现了软硬一体的集成应用,进一步推动其实用化进程。例如,自动驾驶车辆中的决策系统、家庭服务机器人中的互動模块等。
无论是理论基础的夯实、技术产品的推出,还是实际案例的丰富、产业链条的完善,都充分表明 AI Agent 正逐步从理论研究走向实用化阶段。
国内企业也更在加速竞争这一市场,如钉钉、飞书、金山办公等 AI Agent 的应用。
钉钉在其产品中接入了名为 " 通义千问 " 的大模型。通过集成这一强大的 AI 技术,钉钉能够为用户提供更加智能的协同服务,例如智能客服、语音转文字、会议纪要自动生成、智能日程管理等。
此外," 通义千问 " 还可能帮助用户在工作场景下进行复杂问题的解答,提供跨部门信息查询以及根据业务需求定制化的解决方案。
飞书则推出了智能助手 "MyAI"。它能够理解并执行用户的自然语言指令,处理日常工作流程中的任务,比如檔案检索、项目进度跟踪、内部沟通协调等,并且结合机器学习能力不断优化用户体验。据了解,如今飞书的 MyAI 也在不断实现更高级别的自动化办公功能,如预测团队工作负荷、智能推荐工作流程优化方案等。
诸如此类的落地案例都正在生成熟过程中,而伴随着軟體和硬體形态的成熟,AI Agent 也正在从单纯的 " 炫技 " 走进实用阶段。
三、MaaS 模式走向成熟,"AI+ 云 " 普惠化加速
MaaS(Model-as-a-Service,模型即服务)是一种云计算模式,通过将预先训练好的 AI 模型以 API 或 SDK 形式提供给开发者和企业用户使用,使得他们无需从零开始构建复杂的机器学习模型,可以快速地将 AI 技术集成到自己的产品和服务中。
具体来看,MaaS 简化了 AI 的使用流程,无需用户拥有深厚的 AI 技术和大量计算资源来训练模型,降低了企业和个人应用 AI 技术的难度和成本。MaaS 还提供标准化接口,用户可以根据自身需求灵活调用不同的模型服务,节省了大量的研发时间和资金投入。
用户不必在本地维护和运行复杂的模型,而是通过云端服务按需调用,实现了计算资源的有效利用和经济高效。MaaS 模式能够支持不同行业、不同规模的企业快速实现业务智能化,例如精准营销、风险评估、智能客服等场景,进一步加速 AI 在各行业的普及和应用。
此模式下,服务商负责模型的持续优化和更新,用户只需关注业务逻辑和最终效果,可以享受到最新的 AI 成果和技术进步带来的好处。
从云厂商来看,华为、腾讯云、阿里云、百度智能云等一众大厂都在提供此类服务。专业厂商燧原科技也在其 " 曜图™文生图 MaaS 平台 " 上提供了基于大模型的服务。此外,还有许多专注于特定领網域或行业的初创公司和传统軟體服务商也开始提供 MaaS 相关服务。
能够预知的是,这种模式也将成为云厂商的一种新型服务模型,在 SaaS、PaaS、IaaS 之外,为企业提供新型的付费模式,对云计算场而言,这恰是一个新的发展和市场拓展方向。
四、大模型 " 装进 " 终端,杀手级大模型应用诞生
2023 年以来,诸多模型厂商、硬體厂商,都相继发布将大模型装进终端的愿景。芯片厂商如英伟达、英特尔和安谋等都在积极研发终端 AI 芯片产品,有力地支持了大模型在消费电子市场中的广泛应用。
随着技术的进步和优化,包括模型小型化、轻量化、边缘计算能力增强以及低功耗设计的发展,越来越多的大模型或其简化版本有望嵌入到个人电腦、智能手机、AR 眼镜、家电等各种智能终端中。
此外,业界专家对于大模型在更多垂直领網域的应用也持乐观态度,就目前而言智谱、通义等国内大模型厂商,已经逐渐推出适配手机终端的 " 轻量级 " 模型。
而在手机厂商一侧,小米公布了其历史上首个 GPT 大模型产品 MiLM;OPPO 发布了个性专属大模型与智能体即安第斯大模型(AndesGPT);vivo 正式发布了自研 AI 大模型蓝心 BlueLM;荣耀 Magic6 支持荣耀自研的 7B 端侧 AI 大模型;华为宣布盘古大模型也开始融入到智能手机中……
这种趋势下,预计 2024 年会有更多的定制化、行业化的 " 轻量级 " 大模型实现商业落地,为用户带来更加个性化、高效且实时的本地智能服务。
随着这一愿景的落地,一些过去较难实现的技术也将照进现实。
例如高度个性化、能够深度理解用户需求的语音助手,可以更精准地预测用户行为和提供决策建议,帮助处理日常事务、制定行程规划等;
在医疗、法律、教育等领網域,大模型可以作为专家系统,直接在移动设备上提供专业的咨询服务,例如基于患者症状即时给出初步诊断建议或法律咨询意见;
大模型驱动的影像生成、视频剪辑、文字写作等创作工具,让用户通过简单的指令就能生成高质量的内容,比如一键生成营销海报、自动生成短视频剧本等;
家庭智能设备中集成的大模型可实现自主学习与优化家庭环境,包括节能管理、安全防护、舒适生活体验等方面的自动化决策,并具备更强的理解和互動能力;
企业级軟體中的大模型应用,如财务分析、市场趋势预测、客户关系管理等,可在移动端快速响应复杂问题,为管理者提供实时决策支持。
总之,在 2024 年,大模型与终端设备相结合的应用场景将进一步丰富和深化,从理论走向实践,并可能催生出新的杀手级应用产品和服务。这其中尤其以手机厂商和智能家居厂商为代表,作为上一个时代的入口,他们也更在致力于成为 AI 时代的新入口。
五、多模态大模型,重新定义人与机器互動
伴随着 Sora 的出现,能够感知到的是,除了在计算机视觉、自然语言处理等特定领網域模型的发展,多模态大模型的进一步交叉融合或将成为 2024 年未来重要的实践方向。
不同于传统的互動方式通常局限于单一模态,比如键盘输入或触摸屏操作。多模态大模型可以整合并理解多种不同的输入模式(如语音、影像、文本、手势等),从而模仿人类自然交流的复杂性和丰富性,接近于我们日常生活中与他人交流的方式。
正如文章开篇所言,OpenAI Sora 便是多模态大模型的典型案例。而从资本对其的态度,就不难看出其未来落地的巨大商业价值。
可以预见,未来多模态大模型可以识别和响应用户的声音指令、面部表情、肢体动作甚至是眼神接触,使用户能够像与真人交谈一样与机器互动,极大地提高了互動的自然度和舒适感。
还能够融合不同模态的信息来提取更深层次的意义,例如通过结合视觉和听觉信息理解上下文,使得机器能更好地解析用户意图,即使在模糊、嘈杂或非正式的情境下也能进行有效沟通。
基于深度学习的大模型可以根据用户的习惯和偏好进行自我优化和个性化服务,提供更加精准的反馈和建议,实现动态且个性化的互動过程。
对于有特殊需求的用户,如残障人士,多模态互動提供了更多样化的互動手段,允许他们通过最适合自己的方式进行交流,从而提升技术的包容性和可达性。
在虚拟现实(VR)和增强现实(AR)环境中,多模态大模型能够通过感知用户的全面感官输入来创建高度沉浸式的环境,实现实时反馈和互動。
在团队协作和远程办公场景中,多模态系统能够捕捉和解释多个人同时发出的不同模态信号,促进高效沟通和协作。
这种多模态大模型,将使得未来人与机器之间的互動方式将更加丰富,或通过文字、视觉、语音等多维度沟通,进而提升效率。
目前大厂也在纷纷布局,如阿里云达摩院在自然语言处理、影像识别等领網域有丰富的多模态技术应用,并已推出了相应的服务和产品;腾讯优图在计算机视觉和多模态智能方面有深度研究,其产品和服务涵盖了从内容理解到社互動动等多个应用场景;百度的大规模预训练模型如 ERNIE-ViLG 等具备多模态理解和生成能力,服务于搜索、广告、地图等多种场景。
六、大模型训练数据付费:数据价值提上新高度
2023 年年末,OpenAI 与 AxelSpringer 签订的一个協定表明,人工智能在使用媒体品牌内容进行大模型训练时将需要向媒体品牌付费,这意味着 AI 大模型向数据提供方的知识产权付费或将成为行业趋势。
2023 年,国内多地出台促进 AI 技术发展的政策檔案,如《北京市促进通用人工智能创新发展的若干措施》和《深圳市加快推动人工智能高质量发展水平应用行动方案》,其中均提到 " 高质量数据集 "。
此外,国家网信办等七部门联合发布的《生成式人工智能服务暂行管理办法》规定了生成式 AI 服务提供者不得侵害他人知识产权。
可见,当前 AI 政策密集出台,高质量数据集和训练数据版权问题得到重视,未来优质训练数据库的价值将得到凸显。
目前在大模型训练过程中,特别是在深度学习领網域中,针对大规模数据的管理和访问效率,一些向量数据库以及分布式存储系统表现较为突出,例如腾讯云推出的向量数据库服务和阿里云分布式 NoSQL 数据库等等。
此外,数据问题不单纯是数据库的问题,在 2024 年一些关于数据的隐私保护和确权问题也更将浮上水面:比如 AI 大模型厂商到底可以使用怎样的数据进行训练,专有数据集的来源在哪里,以及如何通过标注等获得更好的数据集,甚至基于 AI 大模型产出的产品,版权到底属于谁?
这些数据层面的问题将在 2024 年成为新的 AI 引爆点。
七、算力成本高昂,本土 AI 芯公司加速成长
数据显示,如今 AI 企业平均的 GPU 和 TPU 成本分别为 7.39 万元和 2.29 万元,尽管 GPU 的成本较高,但其在处理并行运算,尤其是深度学习算习法方面的性能表现卓越,使得这一额外的投入成为企业无法避免的支出。
从市场占有率来看,GPU 仍然是深度学习中最受欢迎的处理器架构。目前,Nvidia 在 GPU 领網域具有较强的竞争优势和品牌影响力,但实际应用中多元化的供应商选择依然存在。
一项调研中,参与调研的 9 家公司都选择了 nvidia 的 GPU 作为主要方案,但 AMD 的 GPU 也得到了一些公司(C、D、H)的青睐。
值得注意的是,中国国内的华为和寒武纪也开始在 GPU 市场中崭露头角。其产品分别被两家公司选择为 GPU 供应商。在国内 AI 芯片市场,单卡 AI 芯片算力最高的是华为旗下海思的昇腾 910,在半精度下可以达到 320TFLOPS 的计算速度,与 Nvidia 的 A100PCle 版本持平。
总体来看,虽然对比海外国内芯片技术和軟體生态仍有较大差距,但诸多限制也反向加速了国内芯片厂商的成长。
能够看到的是,随着国内对自主可控信息技术的战略重视,政府为本土 GPU 企业发展提供了政策扶持和技术指导,鼓励企业自主研发 GPU 技术,正不断减少对外部供应商的依赖。
加之越来越多的本土公司在 GPU 核心技术上取得突破,通过优化设计、降低成本来提升产品竞争力,同时针对国内市场的特殊需求定制化产品,从而降低用户采购和使用的总成本。本土 GPU 企业也在加强与上下游产业伙伴的合作,共同构建完整的生态链,从原材料供应、设计制造到系统集成等多个环节进行资源整合与协同创新,提高整体效率并降低成本。
总之,在 GPU 单价成本高昂的背景下,本土公司正在外部环境以及需求驱动下快速成长,尽管现在包括在接下来的几年里仍将与国外企业有明显的差距,但这种差距如今伴随着内外部环境的催化正在缩小。
八、B 端,成为大模型核心主战场
在过去的一年,大模型在 B 端虽然已有一些成功的案例,但整体上大模型在垂直领網域的定制化和实用性还处于发展阶段,此外数据隐私和安全法规可能还未完全跟上技术发展步伐,企业在应用大模型时面临合规挑战。
更为重要的是,企业内部对新技术的认知和接受程度不一,大规模部署仍需时间培养市场信心和技术准备。相关产业链配套尚待完善,包括硬體算力、軟體生态、人才储备等方面需要进一步积累和发展。
而随着技术成熟度提升,大模型技术在 2024 年预计将达到更高的成熟度,不仅模型的性能和泛化能力更强,而且在垂直领網域应用中具备更好的适应性和针对性。这使得大模型能更有效地解决 B 端业务中的复杂问题。
除此之外,随着数字化转型的深入,B 端企业积累了大量的行业和业务数据。未来,大模型将能够更好地利用这些数据进行深度学习和预测分析,为企业的决策优化、生产效率提高和成本控制提供强大支持。
加之,云计算、边缘计算等基础设施的建设更加完善,为大模型在终端设备上的部署提供了条件,使得大模型能够在各种业务场景下实时响应,满足 B 端用户对快速、准确及个性化服务的需求。
如果说 2023 年,大模型领網域还有一大批创业者们瞄准 C 端,那么在 2024 年,B 端将成为最为核心的战场。对云厂商和軟體厂商而言,在单纯的 C 端声量之外,其更多的经历也将放到 B 端的变现和落地上,以试图将 AI 转化为真正的成生产力。
写在最后:
随着 AI 应用的深入,对高质量、大规模且具有代表性的训练数据需求更为迫切。然而,获取和清理这类数据的成本高、难度大,尤其在处理多源异构、实时流式数据时,如何确保数据的质量、完整性及实时性是持续存在的问题。
除此之外,虽然算力不断提升,但面对日益复杂的任务场景和更精细化的应用需求,提高模型的准确率、鲁棒性、效率以及减少资源消耗仍是一大挑战。尤其是在深度学习领網域,大模型训练成本高昂,模型压缩与加速、微调策略等优化手段有待进一步发展和完善。
尽管 AI 技术进步迅速,但将先进技术转化为实际产品和服务的过程中,需要考虑开发成本、维护成本、硬體成本等因素,同时还要保证商业模式可持续并产生可观的经济效益,这对 AI 整个市场的产品化能力和开放环境提出了考验。
加之不同行业有着各自独特的需求和规范,AI 技术要成功商业化,就必须深入了解和适应各行业的特点,找到切实可行的应用场景,并克服行业间的壁垒,这同样是一个艰巨的过程。
总体而言,尽管如今伴随着 Sora 的出现,能看到的是,AI 技术已经取得了显著进展,但在落地层面,数据难题、模型效能的极致追求,以及如何打破实现效果、成本和边际效应的三角形难题,商业化的诸多现实问题,仍将成为 AI 大模型在 2024 年的核心探索点。
在过去的一年里,我们看到的 MaaS、AI Agent、多模态、开源、参数比拼、行业模型……这些关键词背后对应的也更是对工业世界的改变和中国产业数字化转型的加速推动,我们也更有理由想象相信,在正在进行的 2024 年,国内大模型也将更下沉和落地,在技术上的突破之外,也会出现更多的向下的产业兼容和产业实践案例,作为新质生产力推动产业数字化转型的航船加速前进。