今天小编分享的财经经验:大模型下探音视频AI市场,战争才刚刚开始,欢迎阅读。
图片来源:视觉中国
大模型面向产业落地的难点是什么?
1. 当下,基于生成式的人工智能技术(AIGC),仍然需要海量数据进行训练才能得到一个回复质量较高的模型算法,初期训练成本非常之高。这对于倾向自研基础大模型的企业是必须要过的门槛。
2. 对于给出算法更加精准、训练成本更低、对于用户调取更方便的模型,这一方面的提升空间较为明晰。在媒体、游戏、营销等行业已经看到比较多典型的内容生成场景,但 AIGC 技术并不能适用于所有场景,且在商业层面的实际回报率尚未明朗。
3. 从市场需求的共性来看,企业对 AI 技术更关心,关心怎么跟业务融合,但同时也会有些担忧或紧张,新技术会不会对业务带来冲击。与此同时,各国对人工智能和数据获取监管的法律条文,以及对 " 类 ChatGPT" 的支持力度,也在反映这种观望态度。
过去半年,整个科技圈有关 AIGC 创新的新闻铺天盖地,但一顿操作猛如虎之后,还有更多仍在 " 来的路上 "。
6 月 1 日,阿里云宣布通义大模型进展,聚焦音视频 AI 的 " 通义听悟 " 正式亮相,成为国内首个开放公测的大模型应用产品。
通义听悟其前身是早在 2021 年研发投入市场的 " 听悟 " 产品,此次除了集成阿里通义千问大模型的理解与摘要能力外,还融合了阿里最先进的语音语义、多模态算法等技术。公测期间,听悟用户可通过每日登陆等多种任务领取免费转写时长,阿里云官方多个平台也会放大量 20 小时的转写口令码。除此之外,听悟企业版还在与钉钉 " 钉闪记 "、夸克 APP、阿里云盘等进行能力进行集成。
此举对于国内的 AI 语音技术服务商以及 " 类 ChatGPT" 应用企业,并不是个好消息。
从听悟到通义听悟
结合当前的官方定义来看,通义听悟具备 " 听 " 与 " 悟 " 能力,即 " 听力好 ",能高准确度生成会议记录、区分不同发言人," 悟性高 ",可形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。
这其实也明确了外界对 AI 音视频技术产品的一个重要期待:要让 AI 理解人类,并且以人类可理解的方式表达出来。AI 理解人类,意味着不只要听到表面语义,甚至还要理解人的情绪和意图;AI 表达,则意味着在文本生成、内容摘要、风格及情绪表达上要有所突破。同时结合多模态技术,不只是文字、音频,还有影像、视频等方式传递给 AI 理解。
这个过程,在没有大模型技术应用前,就已经存在诸多细节性挑战。但在阿里云 CTO 周靖人看来,有了通义大模型的加持,阿里将多年积累的语音技术,以及多模态的能力有机结合起来,最终形成今天的通义听悟。
" ‘知其然不知所以然’是产品没有大模型的局限性,过去的听悟只能做到将语音文字转录出来,但背后的整理、理解、信息收取,是依靠人来完成的。之前也曾用过小模型,但结果并不好。" 周靖人在会后的交流活动中指出。
以语音识别 TTS 为例,听悟内置了语音识别模型 Paraformer,它首次在工业级应用层面解决了端到端识别效果与效率兼顾的难题。配合 GPU 推理,不同版本的 Paraformer 可将推理效率提升 5~10 倍,同时,Paraformer 使用了 6 倍下采样的低帧率建模方案,可将计算量降低近 6 倍,支持大模型的高效推理。
说话人识别模型 CAM++,相较于如 ECAPA-TDNN 和 ResNet 模型,在准确识别和高效计算的同时,还实现了整体优解。在行业主流的中英文测试集 VoxCeleb 和 CN-Celeb 上均刷新了最优准确率,并且在计算效率和推理速度上有着明显优势。
而此次听悟上线测试的通义千问大模型的信息摘要能力,为保证抽取出的摘要信息的事实准确,大幅度减少幻觉,团队还融合了在推理、对齐和对话问答等方面的研究成果。如在推理能力方面,2022 年团队提出了基于大语言模型的知识探测与推理利用的框架 Proton。
对手会是讯飞吗?
业内普遍一个声音是," 很多产品因为大模型的到来会重新再做一遍 ",接入大模型能力,或将改变的是产品的业务逻辑、互動模式,甚至是收费模式。
从通义听悟当前的产品界面上看,针对的仍然是比较高频的场景,往往跟对话或交流相关,如上述提及的总结、翻译、内容摘取,其本质上是对内容语义的理解输出。据官方描述,其定位为一款工作学习 AI 助手,瞄准具有高知识附加值的音视频内容场景,如开会、上课、访谈、培训、面试、直播、看视频、听播客等,能通过大模型等最新 AI 技术快速提炼和沉淀知识。
通义听悟的技术负责人鄢志杰一直都在从事智能语音互動相关工作,他解释道," 目前展示的视频转文字,仍然是将视频里的音频进行文字转换,尚未展示出视频直接转文字的理解过程。未来会进行多模态的理解,不仅要有音频转文字,还要辅助以视频和视觉的模态对内容进行更好的理解。"
下一步,通义听悟会被各种各样的业务系统集成,集成到智能化服务中,开发者可根据实际场景,最终打造基于业务场景的 MaaS 服务," 通义听悟一定会推出企业版,为企业场景所定制,每个企业也都会有不同的需求,也有数据安全、数据隐私等方面的要求。" 周靖人补充道。
那么,通义听悟的对手会是讯飞吗?
事实上,音视频是人机互動的重要入口,市面上成熟的 AI 音视频产品并不在少数,除了讯飞、搜狗、网易有道等具备软硬體能力的服务商外,飞书妙记、腾讯会议等互联网公司孵化的企业办公生产力工具,也同样具备相似的能力。可能的区别在于,背后的 AI 技术逻辑,是否会因大模型的到来而彻底改变。
科大讯飞于上月发布星火大模型,其中軟體产品讯飞听见会写已经搭载大模型开放使用,在收费模式上已经给市场参考标准——根据单次 AI 能力的使用(单次字数不超过 8000 字)按月 / 季 / 年会员收费。
互联网公司在这方面的积累也从未缺席,在不断丰富 AI 技术体系的同时,也在迅速推进大模型 + 的创新。例如从早期的 iDST 实验室到达摩院,阿里 2019 年开始投入大模型,2021 年训练实现 10 万亿参数的多模态大模型 M6,2022 年发布通义大模型,到如今的通义千问、通义听悟已经在逐步产业化融合。
《中国人工智能大模型地图研究报告》指出,据不完全统计,中国 10 亿级参数规模以上大模型已发布了 79 个,特别是在自然语言理解、机器视觉、多模态等方面,出现了多个在行业有影响力的大模型。上述提及的网易有道则基于教育场景推出了 " 子曰 " 大模型,出门问问的 " 序列猴子 " 则面向多模态生成能力的大语言模型……
可见,能容纳后来者的赛道,依然存在尚未挖掘的价值空间,更何况大模型将带来新的变量。
(本文首发钛媒体 APP,作者 | 杨丽)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体 App