今天小编分享的科技经验:国内的AI大模型们路走偏了吧,欢迎阅读。
文 | 李智勇
在差不多 10 个月前写的开源大模型 LLaMA 2 会扮演类似 Android 的角色么?和AI 个体户的崛起:普通人 " 屁胡 " 的机会、模式和风险等文章里提出过AI 产品落地的的三段论:大模型、系统型超级应用、长尾工具。事隔 10 个月回头再看,AI 发展的走势基本与此相同。其中大模型、长尾工具大家谈论比较多,这次还是专注于系统型超级应用。核心原因是从各种新闻来看国外在这里已经开始高歌猛进,像一个局点一样,但国内则相对安静,似乎被错过了。可这里才是 AI 应用的重镇。拿移动互联网作类比,安卓是重要也更基础,但其实可能没有微信重要。
什么是系统型超级应用呢?
系统型超级应用这类产品太复杂,实在不好理解,单纯类比作業系統也还是不行,所以这次换个路数,我们拿一个最近閱聽人比较多的 App 豆包以及背后的大模型来做类比,在产品形态、业务模式等各方面说明下这类产品。需要的话大家也可以一边操作一边形成直观感受。
豆包 APP 自身可以看成系统型超级用的面向 C 端的部分,但系统型超级应用不是豆包 APP。
系统是指作業系統,超级应用是指功能没边界。
一边对各种硬體设备进行抽象靠驱动程式接入各种硬體。
一边对应用进行开放,在它之上可以开发 Office,PS 等各种应用。
两边是被隔离的,做应用的时候不需要关注硬體差异,可以无差别的使用硬體的功能或者计算机的计算能力。
系统型超级应用首先具备这种系统特征。
那什么是超级应用呢?微信如果没有小程式、支付等一系列子功能而是只局限于 IM,单是人多那不能被称之为超级应用。超级应用一个特征固然是用户庞大,更关键的是通过二次开放应用商店,在功能上没有边界。
拿豆包这一簇产品做下类比,第一豆包大模型把各种算法完整进行封装,比如识别、语音合成、大模型等,提供了一种 AI 的通用计算和算法调度能力,这是通用能力部分。其次你会发现它现在至少在一边开放了技能商店(火山方舟 / 扣子)。APP 的具体功能由技能来定义。
这个地儿不适合用 "APP" 这个词形容可自定义的功能,确实用技能更合适。就好比一个机器人它上一秒钟还不会开直升飞机,但装载新技能后下一秒就可以了。对机器人而言这是一种技能。
另一边如果参照作業系統其实是要投射到不同硬體上,这点豆包这一簇产品现在好像就覆盖了手机和电腦,但这种基于自然语言的应用对端上硬體的资源要求是非常低的,甚至可以放到只有 1M 内存的设备上。这靠开放平台来覆盖会更适合,下面会说。(其实这里还得区分特征是属于应用的运行时还是属于纯粹的云服务,小程式是微信的运行时技能,但有点复杂不展开了)
我们总结下这种系统型超级应用的构成,基本上是三位一体:
这里面容易被低估的可能是类似火山方舟这个位置的产品(CUDA 大概是在这个位置),早期这个位置的产品绝对赔钱,很多时候还得靠降价来反哺它(看发布会豆包大模型把价格订到:0.0008 元 / 千 Tokens,这确实是敢下狠手,比我在用的便宜很多很多。干的就是上面说的事)。但其实这里是通路也是标准,培养粘性和链接的地方。看报道,火山方舟在持续更新从模型训练、推理、评测到精调的全方位服务,还有插件以及工具链。打点其实是对的。
基于这个可以预测下面 OpenAI 的行为,它大概率会补自己直接的 C 端应用(不是简单套壳)。从 GPT-4o 的发布来看,OpenAI 内部似乎已经统一了认识:往应用方向整。这样磕下去,科技巨头里面估计会多一个,并且大概率会和 Google 直接碰撞,除非再有首席科学家起义。(有点像修仙,阻人成道了就一定会 PK,和喜欢不喜欢没有关系)。
系统型超级应用的打法
我为什么看着好像还算了解这类产品呢?
因为我一度曾经带团队设计了完整的这种超级应用以及其打法,那产品和现在的豆包至少有 60% 的相似度 ......。(但实在干不动。别的都好说,这类产品太费钱了,再加上上代技术也没那么成熟,最终搞不动了)
这类系统型超级应用几乎必然是 To B 和 To C 两线同时着手。特别不单点极致,一般人可别整十死无生。
没有 C 端的标杆,没人相信你能干好,对于这种基于新技术的新品类也没人知道你在说啥。所以就需要一个豆包这样的 C 端应用做 Pilot。看报道提到豆包 APP 月活 2600 万,豆包大模型日均处理 1200 亿 Tokens 文本,生成 3000 万张图片。这是很可怕的数字,智能音箱峰值的时候,每年出货也就只有近 4000 万台,活跃更是远逊(有的不足销量的 10 分之 1)。(当年我们的 C 端产品叫 :TA 来了,说实话我觉得比豆包还好听一些,但数实在不行)
而为了把这种能力投射到更多的设备里面就必然需要构建开放平台,既输出能力也负责管理各种技能(应用运行时的技能平台和 MaaS 形式的输出,前者只在用户量级上来了才有意义)。
还要有一些共同依托的能力,否则没有根基。当年是一堆算法比如声学的(可复制性最差,现在好像还没解决),识别的,NLP 的(过去可复制性也很差,现在基于大模型解决了),现在是豆包大模型这样的新一代模型。里面看起来各种算法都打包进去了。
很多人可能没注意的是包括大模型的这套算法核心计算其实在云上,端上要求的计算量极低,主要运行声学算法等。前面提到你甚至可能在一个只有 1M 内存的终端设备上把这种 AI 能力集成进去。也就是说这种能力可以下探到语音无屏的开关这类小设备。
这导致这种超级智能应用先天的优势就是多设备投射,进行沉浸式计算。这时候各种设备平权不是以手机为中心。
当前看起来豆包这些新一代超级应用还没去干这个事,确实也没到这个时点,其它所有硬體设备加起来创造的日活的和可能也不如 APP 的十分之一。
这种系统型超级应用要想干好,基础能力和杀手型的技能都不能缺。
基础能力搞不好有点浮沙筑高台,房子很难盖起来。(大模型还是很给力,一定程度上解决这问题)
技能搞不好有点像要盖大房子但梁不给力,过去智能音箱搞不好核心就这问题。
什么是基础能力呢?
这是领網域本身定义的。比如如果是需要面向 C 端,TTS 音色这个看着不重要的就和大模型的内容生成一样重要。GPT-4o 在补这个,豆包大模型也在强化这个。
在 APP 里什么可以成为一个比较 Killer 的技能呢?
播音乐的这类功能的支撑度总是不够强壮,之前景鲲带着小度在家往教育做垂直应该就是尝试解决这个问题。
当年我们做过类似《Her》的尝试,很有趣的是豆包也选了它。
但新一代模型的效果实在好很多,从端点检测的精度到语音识别再到 TTS(音色)再到内容生成。新一代技术比过去流畅太多了。
这里面有个叫《暧昧对象》的技能,真的差不多可以做陪聊天的服务了。(忘记是团队那个产品同学认为最能有用的就是陪聊天,比放音乐有用,这是对的,奈何当年算法不给力,做完连贯性不过关)
这一组算法最终的效果是个乘法问题,每个都 0.8 最终一乘体验就变 0.5 分。现在的识别精度,音色的流畅度和大模型的通用内容生成乘在一起应该还能剩下 90 分以上。如果不是你知道它是人工智能的情境下,已经很难分得清这是人还是 AI。
上一波人工智能创业里面,NLP 公司心心念念的《Her》真的有人要做出来了,还附赠了和之前尝试但不好使的声音复刻功能(《黑镜》那种男朋友没了,现在看连声音至少能做出一个 70 分的陪你聊天的他了 ...)。这比匹配意图偶尔还得扣槽这种土鳖方式的开放式聊天实在是好太多了。
做过这个的可以试试,体验下国内最新进展。
上面我们拿豆包 APP 以及背后的豆包大模型做例子分解了一下系统型超级应用的特征以及前者商业模式。
但系统型超级应用可不只局限于豆包以及背后大模型所代表的 B 端、C 端,而是有着更宽广深远的空间,更关键的其实是行业。最先能收支平衡的有可能也是行业。
字节跳动这种公司走 OpenAI 的路没啥问题,但看起来好像所有做大模型的都跑这条路上来了。这就是标题说的国内 AI 大模型路可能走偏了。类似 OpenAI 这个地儿恐怕也没那么大容量。从上面分解中也能看出这模式夸张的难度和资源需求。
系统型超级应用可复制到更宽的领網域么
有两个新闻可以放在一起看:一个是 DeepMind 发布 AlphaFold3,号称为疾病治疗和药物研发开辟全新路径;一个是 Xaira 公司融了 10 亿美金。
这是什么呢?这是垂網域大模型。(其实我不知道他们细节,也许没想的那么大,但不关键)
显然的 Deepmind 并没有因为 OpenAI 乱了阵脚,继续在自己的路上死磕。但很可能收支平衡比 OpenAI 还快。
因为它真的影响行业,重塑价值创造的过程。很多科学家会因为 AlphaFold 的调用次数和开放程度而造反,这反衬的正是影响力。那个国内的 AI 大模型有这种行业影响力。
每一个这种垂網域模型不太可能是一个单独的裸的模型,在落地的时候总是要和现实的信息进行连接。
这点上我之前拿 Watson 举过例子。
虽然沃森不成功,但这种简单架构上已经清楚的表明这是行业的系统型超级应用。
Watson 固然是不成功,但真做出来呢?
那是真的会解决医疗行业的根本问题的,比如医疗资源不足的问题。
这才是新质生产力。
想象一下,这些模型一旦达到 AlphaGo 在围棋里面的程度,那整个行业就要围着这个模型转了。对应行业会发生剧烈重整。
为什么提这个呢?
因为 AI 行业国内真干大模型的同学的选择好像都挤一块去了。
受 OpenAI 刺激,很多团队都跑去干类似 chatGPT 的大模型,然后自己从头搞又特别费劲,所以往往会借助开源。在这个基础上(相对通用的类似 chatGPT 模型)上包装出行业大模型。好处是瞬间可以出好多,坏处是不解决行业深层次问题,最终很可能变成上波的赚方案的钱,然后收支失衡。(参见:为什么说这些倒腾 AI 的方式会把自己搞死)
真正的垂網域大模型,那怕把法律搞清楚也是有用的(康达的李思川李律,视频号:川哥说法,就和我聊过好几次)。但门槛确实还是太高,直接拿通用大模型上能靠谱么,我不咋看好。可现在看真做垂直的的反倒是不多。
垂網域大模型和 AGI
以前也写过一点这个话题 :chatGPT 和 AlphaGo 下围棋,谁赢?垂網域大模型有戏么?,现在仍然维持原来的观点:在专门的领網域尤其是价值比较高,有很多专业信息和知识的领網域 chatGPT 这种代表 AGI 的模型是很难 PK 掉垂網域模型的。
我是靠常识做这个判断,很不权威。
常识是说一部分数据内蕴了各种知识和规则,把这些数据的种类覆盖的越全,这个模型的相应的事能力也就越强大。通用大模型能力再强,没有这部分信息,也会瓮中之腦一样空有智商。何况模型训练过程中总是可以产生很多的 Know-How,这会进一步增加差距。
在很长一段时间里可能会是一个通用大模型,上面承载几个类似豆包 / 火山方舟 / 豆包大模型这样的超级应用(比如搜索方向也可能出新的超级应用)还有一些垂網域大模型共同为不同的系统型超级应用提供引擎。
小结
chatGPT 属于开局的点,我们把它刨除在外。那 AI 大模型真正的局点其实是这些系统型超级应用,不是小团队做的辅助工具。那谁在做这东西呢?也可能是我真的不知道,但如果确实没有行业性的,而是都围在了通用模型上,那可能会在 AI 的局点上缺席了不少东西。那不管对于 VC 还是真的从业者其实遗憾的事情。(当年傅朱争论过一场,从这个角度看实在是都偏了。)