今天小编分享的科技经验:大模型疯狂12月,卷出五个关键趋势,欢迎阅读。
文 | 轨迹研究室,作者 | kiki
如果对比去年同期,你会发现今年 12 月是大模型行业的一个热闹峰值。
从 11 月中旬开始,OpenAI、微软、谷歌、字节跳动、百度和智谱等科技公司都召开了与大模型相关的发布会,推出了一系列新模型、新应用和新产品,其中 OpenAI 的 12 天连续直播更是开启了科技公司发布会的新流行。
热闹之下,比起去年技术层和竞争层的种种不确定性,当下模型厂商们的心态和预期好很多。一方面,在技术侧,一场推理 AI 竞赛已经开打;另一方面,应用层包括 AI Agent、搜索等方向也已经明确。
我们整理了 12 月大模型行业里的五个趋势,记录这个疯狂月份里的兴奋和失落。
1、OpenAI 扣动扳机,开启推理 AI 竞赛
随着 OpenAI 相继发布 o1 和 o3 模型,一场推理竞赛正在模型厂商间展开。
据 OpenAI 发布的 o3 系列时给出的评测数据,在数学、编码、博士级科学问题等复杂问题上的表现,o3 均展现出了强大的实力,例如在陶哲轩等 60 余位全球数学家共同推出的最强数学基准的 EpochAI Frontier Math 中,o3 创下新纪录,准确率高达 25.2%,而其他模型都没有超过 2.0%。
而在 OpenAI 没放出 o3 前,国内外科技公司的目标无疑是追赶 o1,谷歌此前发布全新测试模型 Gemini 2.0 Flash Thinking。
今年 11 月,月之暗面 Kimi 的新一代数学推理模型 k0-math、DeepSeek 的推理模型 DeepSeek-R1-Lite 预览版、阿里云通义的 QwQ-32B-Preview 也相继发布,在一些数学和编码评估表现中,它们的分数比 o1 还要高。
但一个问题是,目前尚不清楚 o3 是否会为普通用户带来很大帮助,从模型能力来看更适合推编码、数学和科学领網域的研究人员,除此以外,推理模型也很昂贵。在 Keras 之父 François Chollet 发起的 ARC-AGI 基准测试显示,尽管 o3 在高计算模式下得分率为 87.5%,但研究人员在该模式下每个任务花费达到数美元,任务成本很高。
ARC-AGI 测试标准 图源:X@arcprize
但成本也只是一个相对的概念。近期,清华 NLP 实验室刘知远教授团队提出了大模型的密度定律(densing law),该定律表明,大约每过 3.3 个月(100 天),就能用参数量减半的模型达到当前最先进模型的性能水平,这意味未来推理成本还会快速降低。
但至少从技术端来看,至少 OpenAI 再度验证了 Scaling Law 没有消失,只不过是从预训练端转向了推理端,通过强化学习和更多的思考时间,提升模型的复杂推理能力,这条路是可行的。
对国内外基础模型厂商而言,它们需要追赶的新目标又出现了。
2、降价还在继续,甚至卷到了「视频模型」
继 5 月、9 月后的两轮大模型「价格战」后,OpenAI 和火山引擎(字节跳动旗下云厂商)又掀开了第三轮「价格战」。
在 OpenAI 第九天的发布会上,针对 GPT-4o 音频模型,4o 音频价格降低了 60%,降至输入 40 美元 / 百万 tokens、输出 80 美元 / 百万 tokens,文本价格为输入 2.5 美元 / 百万 tokens、输出 10 美元 / 百万 tokens。
OpenAI 12 天直播 图源:官网
为了讨好开发者,OpenAI 还把价格战打到了更有性价比的小模型 GPT-4o mini 上,音频费用是 4o 的四分之一。" 我们听到了开发者关于成本的反馈,我们正在降低成本 "。OpenAI 开发者平台负责人 Olivier Godement 在直播中这样说。
另一边的火山引擎则是把「价格战」带到了视频模型上,其发布的豆包视觉理解模型输入价格为 0.003 元 / 每千 tokens,比行业平均价格降低 85%,火山引擎称将视觉理解模型带入了「厘时代」。
「厘时代」的说法并不陌生,今年 5 月火山引擎就宣布豆包主力模型将推理输入价格降至「厘时代」,打响大模型推理算力价格战,此后阿里云、百度智能云和腾讯云均迅速跟进,大模型推理算力价格下降了 90% 以上。
降价并不是国内模型厂商的独有特色,OpenAI 也曾多次降价。但区别于国外厂商,国内大模型玩家的特点是:降价幅度更狠,且多为云厂商主导。
降价的原因主要有三:首先,以价换量,以价格带动推理算力消耗量增长,这也是为什么降价主要集中在云厂商的原因。
火山引擎方面,5 月豆包通用模型的日均 tokens 使用量为 1200 亿,截至 12 月中旬,日均 tokens 使用量已超过 4 万亿,较七个月前首次发布时增长了 33 倍。百度 5 月日均 Token 消耗量是 2500 亿,截至 11 月初,百度文心大模型的日均处理 Tokens 文本数超过 1.7 万亿,不到半年增长了 6.8 倍。
其次,随着底层大模型成本、价格的降低,吸引开发者,加速 AI 进入外部企业,抢占应用生态。
零一万物创始人李开复在近期的一场采访中对比去年和今年的模型价格,这样说:" 一年半的时间内,价格差了 500 倍,同时模型能力还有很大程度的提升。今天如果你还觉得贵,明年 99% 的概率就不贵了,再过一年可能不但不贵,而且能够支撑你做想要的应用。"
最后,技术本身的优化也带来降本的空间。 谭待提到,降价是算法、軟體、工程和硬體结合的结果,例如模型结构的优化,在工程手段上,针对不同客户场景集中规模化处理模型调用任务以及采用多种工程化手段,还有通过以异构资源池化的解决方案,提升芯片利用率等。
谭待谈到驱动两次降价的两个内部决策因素,提到两个核心因素,一方面会了解开发者、企业在使用过程中对成本痛点,价格降到多少,他们就能用起来,另一方面,火山引擎也在通过技术优化能把成本打到多低:" 这两个值的中间段就是火山引擎可以定下的价格 "。
据华泰证券此前预测,降价或还会蔓延,且已呈现出向主力模型降价的趋势。但降价是面子,模型能力才是里子,模型厂商需要回答的核心问题有两个:一是以价换量是否会影响利润表现(国内云厂商这些年均强调利润),二是模型效果是否能真正让客户买单,因为一切竞争的原点都还会回归模型的推理能力上。
3、大模型应用爆发了,但「能用」到「好用」间还有鸿沟
计算成本的下降和基础模型选项的增加,让大模型应用层进入了一个飞速发展的时期,风险投资公司 Lerer Hippeau 管理合伙人 Ben Lerer 甚至这样说:
" 如果你是一家初创公司,你可以选择当下流行的方案,不仅仅是做 ChatGPT 包装器、Claude 包装器、Gemini 包装器,或者随便什么,你可以将所有这些包装器组合起来,以优化功能、结果和这些结果的成本。"
「套壳与否」已经不再成为市场关注的重点,国外应用层玩家的「通用大模型套垂直小模型」的「鸡尾酒打法」也已复制到中国。
以国内 AI 玩具厂商跃然创新为例,创始人李勇就提到,在通用大模型上和 MiniMax、豆包、智谱均有合作," 各家效果都挺好,儿童场景也够用 ",现阶段使用 MiniMax 比较多是因为 " 给了跃然创新早期用户很多免费 tokens"。
比起外界对「何时出现杀手级应用」的追问,各家厂商有自己的判断,此前字节管理层判断 AI 对话类产品可能只是 AI 产品的「中间态」,而百度创始人李彦宏则对外反复谈到,Agent 是他最看好的 AI 应用发展方向。
整个 12 月,大模型玩家们围绕应用层的探索形成了「2+X」的确定性方向,其中「2」指的是 AI Agent(智能代理)和 AI 搜索,而「X」则是包括 AI 玩具、AI 耳机、AI 眼镜等诸多 AI 软 / 硬體产品。
在 AI 搜索上,姗姗来迟的 OpenAI 终于在 12 天直播中宣布在 ChatGPT 新增了搜索功能,而据外媒报道,谷歌在推出 AI Overviews 后,近期也在考虑在 Chrome 浏览器中增加「AI 模式」选项。而在不久前,AI 搜索领網域的巨头 Perplexity AI 也完成了新一轮 5 亿美元的融资,估值已升至 90 亿美元。
搜索这块「旧蛋糕」一直是大模型应用的必争之地,如今战火更盛的原因一是大模型推理技术能力的提升,二是对商业化的迫切需求让玩家们加大了对搜索这一「离钱更近」场景的争夺。
而与 AI 搜索关系「暧昧」的 AI Agent 也在 12 月成为最火的应用落地方向。
Anthropic 推出的 Computer Use 功能和智谱近期发布的 AutoGLM 都展示了端侧 Agent 的互動性、自动化和主动性等特点,国内外科技大厂也几乎都有自己的 Agent 平台。
在科技企业的各种演示中,AI Agent 似乎已经能融入用户的工作和生活,不仅在手机端能执行预定酒店、点外卖等指令,还可以成为用户的工作助理,智谱 AI CEO 张鹏将 AI Agent 比作大模型通用作業系統 LLM-OS 的雏形,它的潜力在于大模型公司可以以此搭建自己的生态圈,在手机、PC 等端侧找到落地的入口。
"(AI Agent)实现大模型的互联互通,理论是没有边界的 "。张鹏表示。
但也请对科技公司的理想保持冷静。现阶段,他们尚未解决的问题还有很多。比如商业模式,在 C 端,智能体目前尚没有形成新的商业模式,依旧靠高流量带来的付费转化,百度、字节等大厂的智能体还需要靠自己已有的流量阵地完成分发。
而在 B 端,红杉在近期一份报道中指出,随着代理(Agent)应用很快变得更加复杂,对于任何给定的领網域,收集现实世界的数据、编码领網域和应用特定的认知架构也将成为更多玩家摆在眼前的挑战。
当然,在「X」上也涌现出更多的尝试。除了我们已熟悉的 AI 手机、AI PC 外,红极一时的 AI Pin 不见了,新的风口属于 AI 玩具和 AI 耳机。
字节的显眼包,已经开卖的 AI 毛绒玩具,究竟是风口,还是刚需,销量和复购数字会给出答案。
一句话总结,在强调「应用优先」的共识里,从能用到好用,还有许多鸿沟。
4、资金大分裂继续,穷人富人已经出现
热闹的年终发布月里,久违的大模型融资热又来了。
上个月底,在 OpenAI 和 Anthropic 完成新一笔融资后,据我们不完全统计,12 月初,又一批国内外的明星 AI 企业们拿到了「过冬钱」。
国内大模型企业中,面壁智能、智谱 AI、阶跃星辰完成新一轮融资,至此也将国内基座大模型的估值抬升至 200 亿元门槛,随着单笔融资的提升,我们发现接住国内大模型公司已经变成了老股东、国资和科技大厂。
国外企业中,模型层、应用层和几基座层均有新融资出现,Perplexity AI、X.AI、Databricks、Cursor 等公司都拿到了新一笔钱。
拿到钱该如何分配,是这些公司下一步的重点,加码技术研发和基础设施建设还是主线。X.AI 在本次融资公告中就提到,主要用途预计是采购另外 10 万块英伟达 GPU,以进一步扩充其算力规模。
融资的牌桌上,有富人,就有穷人。风险机构 Northzone 合伙人 Molly Alter 预测:"「最诱人」的交易将继续以极高的估值进行,但对于其他公司而言,则需要展示非常具体的指标才能获得高估值。「富人」和「穷人」将出现巨大的分化。"
分化的结果将是,我们会看见,寻求退场或倒闭的初创公司会增加,大型科技公司和头部企业的整合速度也会加快。
如 Perplexity AI 在本月收购了一家名为 Carbon 的小型初创公司,Cursor 背后的开发商 Anysphere 也将另一款 AI 编码助手 Supermaven 收入囊中。
「The information」此前曾提出,衡量那些短期内不太可能被收购的公司主要有以下几点因素:收入和利润、增长、员工人数、筹集的总资金以及公司是否从可能成为收购者的战略投资者那里筹集了大量资金。
5、回流与出走,所有人都面临 " 人 " 的问题
人、钱、事,是所有公司的三要素,而在大模型行业,人又是最关键的因素。
围绕大模型组织的整合、人才的回流和出走,成了年末的焦点话题。
此前我们在《大模型狂飙两年后," 六小龙 " 开始做减法》曾报道过,大模型「六小龙」中已经不断有人员离开,他们离职的方向包括但不限于——回流大厂、再创业。
而再创业的方向基本也和 AI 相关,零一万物前联潘欣在近期以闪极 AI 合伙人身份投身 AI 眼镜浪潮,月之暗面前产品负责人王冠的新创业项目 ONE2X 也在 11 月完成天使轮融资。
而「人」也是过去一年里 OpenAI 头疼的问题。不久前,「GPT 之父」Alec RadfordAlec Radford 也宣布从 OpenAI 离开,宣布将开启自己独立研究生涯。搜索负责人 Shivakumar Venkataraman 也在加入公司七个月后离职,他领导了 OpenAI 企业客户的搜索和人工智能的开发。
类似的整合也出现在大厂内部,它们需要以更灵活的姿态应对竞争。此前据《智能涌现》报道,阿里旗下的 AI 应用「通义」也从阿里云分拆,并入阿里智能信息事业群。
可以肯定的是,随着竞争激烈,组织和人才整合和分化不会停止。
时间拨回去年 12 月,在经历了内斗动荡后,重回管理层的 Sam Altman 或许不会想到,此刻的 OpenAI 已经历了一轮人才的大换血。
一年前,人们讨论的话题是创业公司和大厂间的竞争,技术上聚焦长文本視窗,流行大模型是一把手工程,一年过去,这些话题还在讨论,但有些问题已经随技术更迭成为共识。
即便人们对 AI 依旧怀疑,但它确实已走入人们的生活,这个趋势将无法阻挡,正如 Sam Altman 在 12 天直播发布会后所说的那样:
"You can just do things。"