4000亿参数，国产大模型硬刚Llama 3？

今天小编分享的财经经验：4000亿参数，国产大模型硬刚Llama 3？，欢迎阅读。

头图由天工 AI 生成

随着中国加速研发 AI 大模型技术，追赶美国，如今已迎来新的节点。

北京时间 4 月 18 日，Meta 推出了新版开源大模型 Llama 3，并推出了 8B 和 70B 的预训练和指令微调版本，在众多性能上都大幅超越了 Llama 2。Meta 官方还表示，公司后续还将推出模型参数超过 400B（4000 亿）的更大版本 Llama 3。

然而，就在 4 月 17 日，国内 AI 公司昆仑万维就已正式推出了 4000 亿参数的 " 天工 3.0" 基座开源大模型，成为全球最大的开源 MoE（混合专家）大模型。

相较于上一代，天工 3.0 的模型技术知识能力提升超过 20%，数学、推理、代码、文创能力提升超过 30%，多模态性能超越 GPT-4V。

同样在 4 月 17 日，昆仑万维还宣布，中国首个音乐 SOTA（领網域最佳水准）模型 " 天工 SkyMusic" 音乐大模型也正式开启公测，综合体验远超于风靡美国的 AI 音乐生成平台 Suno V3。

中国 AI 大模型赛道正迎来 "ChatGPT 时刻 "。

（SkyMusic 综合性能评分超越 Suno V3，成为最新音乐大模型 SOTA）

4 月 16 日沟通会上，昆仑万维董事长兼 CEO 方汉对钛媒体 App 编辑表示，" 天工 3.0" 开源模型是面向 C 端产品提供支撑的底座大模型，拥有非常强的技术动力，且开源模型是有一定商业模式的。另外，在 B 端，昆仑万维会提供垂类大模型商业服务。

" 对于天工 SkyMusic，我们应该会一直保持免费对于 C 端提供服务，这个是没有任何问题的。当然如果有专业人士需要专业定制，我们也可以提供服务。" 方汉称。

从一年前的追赶、学习 OpenAI，到如今在 AI 音乐生成领網域全面创新和超越，昆仑万维技术和市场双管齐下，"All in AGI 与 AIGC" 的战略正在产生巨大效果，推动 AI 科技与互联网的跨越式发展。

至此，一个完整的 AI 大模型技术与应用生态正在成型。

三轮 AI 热潮下，2024 年迎来基础大模型的关键之年

早在 1956 年夏天，计算机科学家约翰 · 麦卡锡（John McCarthy）等人在具有传奇色彩的 " 达特茅斯会议 " 上创造 " 人工智能 " 这个术语，被认为标志着 AI 技术的正式诞生。

之后半个世纪当中，计算机技术飞速进步，AI 也影响了全球经济和社会发展。

直至今日，全球共经历了三次 AI 浪潮。前两次 AI 浪潮中，所有人期盼的十年 "AI 效应 " 都如泡沫般破灭。不管是因为芯片 " 摩尔定律 " 速度跟不上 AI 的算力要求，还是因为数据量不够、算法不强、商业化不如预期，均让我们对 AI 发展都保持长期质疑的态度。

当下，我们终于迎来第三次 AI 浪潮。这一次，AI 算法、算力、数据 " 三驾马车 " 同步突破。

此次 AI 浪潮爆发的标志性事件有三个：一是 1997 年，IBM " 深蓝 " 击败国际象棋大师卡斯帕罗夫；二是 2016 年，谷歌 DeepMind 的 " 阿尔法狗 "（AlphaGo）击败了韩国围棋世界冠军李世乭，标志着 AI 技术的爆发拐点；三是 2022 年，AI 聊天机器人 ChatGPT 的推出，引发全球新一轮 AI 热潮。

演化经济学家卡洛塔 · 佩雷斯（Carlota Parez）在《技术革命与金融资本》书中曾提出：从第一次工业革命以来，每两次重大技术革命的间隔基本都在五十年左右。随着旧技术革命红利的耗尽，继续延续使用其成果的收益就会大幅下降。

相比之下，引入全新技术的收益则会上升，而新的技术革命正驱动全球经济增长。距离 2022 年佩雷斯在书中提到的上一次技术革命—— 1971 年英特尔推出全球第一款微处理器，已经恰好过了五十多年，世界正处在新旧科技革命的临界点。

当前，全球各国都纷纷将更多资源投注到了下一个技术革命关键点——AI，尤其是生成式 AI。甚至说，AI 已经成为 " 国力 " 的象征。

昆仑万维成立于 2008 年，经历了互联网、移动互联网发展时代，曾是出海平台领網域的龙头，如今全面加注通用人工智能（AGI）赛道。

方汉表示，早在 2020 年，昆仑万维集团就开始进入文本大模型的预训练工作，并于 2022 年 12 月发布了中国首个 13B（130 亿）参数级开源文本大模型，是在 ChatGPT 爆发后最快推出国内大模型产品的企业。

到了 2023 年，大模型军备竞赛开启，昆仑万维 " 天工 " 也全面 " 狂飙 "：

4 月 17 日，天工 1.0 发布，是国内首个对标 ChatGPT 双千亿级大模型；

8 月 23 日，昆仑万维公布国内首个 AI 搜索产品——天工 AI 搜索；

今年 2 月 6 日，国内首个在线提供服务的 MOE 大模型 " 天工 2.0" 发布。

如今，在 " 天工 " 大模型发布一周年之际，昆仑万维终于带来了全新的最强模型天工 3.0 系列。

方汉坦言，2024 年是底座大模型之年。" 大家知道 AI 底座大模型是 AIGC 坚实的基础，尤其是文本大模型。文生图、文生音乐和文生视频（这些 AIGC 模型）的能力基础都是文本大模型。如果文本模型能力不够强，AIGC 能力就会受到很大限制。我们的 4000 亿大模型是给我们所有的面向 C 端的产品提供支撑的底座大模型。我的底座大模型做得越好，我的音乐、游戏、视频以及动漫产品就会做得更好。所以我们打底座大模型是有非常强的动力的。" 方汉表示。

国内性能最强音乐 AIGC 模型，秒级生成 95 秒歌曲

天工 3.0 的核心主要有两点：中国首个音乐 AIGC 的 SOTA 模型；4000 亿参数、全球最大规模的开源 MOE 大模型。

首先谈音频模型。

据美国风投机构 a16z 上月发布的生成式 AI 产品 Top 100 报告，ChatGPT、Gemini 等通用内容生产应用仍占据消费级 AI 应用大头。与 6 个月前的排名相比，有两个新类别首次进入排行：音乐和生产力。

就内容形态来说，音频内容是相比文本和图片更好理解人类情感的方式。众多落地场景之中，音乐创作也成为普罗大众最易上手和感受到趣味性的 AIGC 场景。另外，对于昆仑万维这类 AI 公司而言，这是一个将自己推向 C 端市场、获得大众认知的有利且重要机会。

目前，AI 音乐生成有两大技术路径，包括符号音乐生成路线、大模型音乐音频生成路线。天工 SkyMusic 采用后者，通过直接学习并生成音频波形，而不是采用符号音乐生成路线来生成乐谱。这种方式能够实现乐器、人声、旋律、音量、音符等元素的一体化端到端生成，为用户带来更为直观且便捷的音乐创作体验。

然而，这种方式不仅艰难、成功经验稀缺，还需要高昂的算力和资金，因此业内做的人非常少。而且过去很多 AI 音乐研究都集中在无人声的 BGM 领網域，业界几乎没有针对人声 Song 赛道的有效解决方案。

而天工 SkyMusic，就是在这两个业界尽快空白的领網域取得了极大突破，大幅提高了 AI 音乐生成大模型的表现，开创了国内音乐音频生成大模型的成功案例。

具体来说，天工 SkyMusic 采用与 Sora 类似的模型架构，包含三大核心模块—— Encoder、DiT（Diffusion Transformer）和 Decoder。其中，Large-scale Transformer 负责谱曲，学习 Music Patches 的上下文依赖关系，同时完成音乐可控性；DiT 负责演唱，通过 LDM（Latent Diffusion Model）让 Music Patches 被还原成高质量音频。

在 SOTA 模型排行中，与海外顶尖的 AI 音乐大模型 Suno V3 进行横向测评，天工 SkyMusic 在人声 &BGM 音质、人声自然度、发音可懂度等领網域显著领先对手，并以 6.65 分的综合得分超越 Suno V3，成为全球 AI 音乐 SOTA 模型。

值得注意的是，天工 SkyMusic 是音乐 AIGC 领網域罕见公开技术路径的产品。其由 "Encoder-DiT-Decoder" 三大核心模块组成的技术路线图，成为业内对 " 音频路线 + 人声 Song 路线 " 的重要技术参考。

天工 SkyMusic 发布后，钛媒体 App 编辑第一时间参与体验。

体验中发现，相较于行业中的同类产品，天工 SkyMusic 基于天工 3.0 四千亿级 MOE 基础大模型，拥有更多产品优势。首先它支持示例音源生成音乐，用户可以选择 " 天工 SkyMusic" 资料库中现有的参考音乐，也可以上传自有音乐，不仅可以生成风格、唱腔类似的歌曲，还能给予用户挥洒创意的空间，让用户创作出更加丰富多彩的音乐作品。

这是钛媒体 App 编辑通过天工 SkyMusic 创作的歌曲，点开就是浓浓的摇滚风。它还支持创作说唱、民谣、放克、古风、电子等多种音乐风格，强化音乐创作生成的多样性。

另外，得益于对全球最大 2000 万首歌曲数据集的深度学习训练，天工 SkyMusic 成功摆脱了传统音乐 AIGC 产品常见的 "AI 味 "。它生成的中文人声发音纯正，没有杂音干扰。不仅如此，它还拥方言歌曲生成能力，能够演绎包括粤语、四川成都方言、北京方言、上海方言在内的多种中文方言歌曲，并灵活运用颤音、歌剧唱腔等各种演唱技法，极大丰富了音乐创作的表现力。

钛媒体 App 编辑编辑生成的这首《Hi Baby》歌曲，通过几句歌词，就能轻松演绎一首 95 秒的英文歌曲，大幅降低音乐创作的门槛，让每个用户都能够更加容易创作属于自己的旋律和歌曲，从而凸显出天工 SkyMusic 强大的技术能力。

虽然尚处于起步阶段，但天工 SkyMusic 已经让很多用户感受到了音乐创作的乐趣。同时，昆仑万维选择将宝贵的技术架构公开，也体现了其对开源社区生态、产业共同发展的重视。预计天工 SkyMusic 将成为行业中最重要的全民音乐创作工具之一，有望推动建立属于中国的 AI 音乐创作者生态。

然而，天工 SkyMusic 仅仅是昆仑万维在迈进 AGI 时代的第一站。

自天工 3.0 发布以来，这款全球最大规模的开源 MoE（多专家混合）大模型便引发业界广泛关注，其不仅拥有超越 Grok 模型的 4000 亿参数规模，并且在四大关键能力上实现了全面跃升。

具体来说，首先，天工 3.0 基座大模型在逻辑推理能力、语义理解能力、应对复杂需求能力和内容创作能力 4 个方面大幅提升，并且在 MMBench 等多项权威多模态测评结果中超越 GPT-4V。同时，基于模型能力的提升，天工 3.0 集成了 AI 搜索、AI 写作、AI 长文本阅读、AI 图片生成、AI 音乐生成等功能，以及新增了多轮搜索及综合工具调用、AI 搜索研究模式、AI 搜索增强模式等功能，可以高效地完成产业分析、产品对比等各类复杂需求。

在演示中，研究模式下，天工 3.0 能够围绕简单指令进行相关问题的延伸，自动生成研究大纲、图谱、实践总结、思维导图等，例如，钛媒体 App 编辑让天工 3.0 研究 "OpenAI 发展历程 "。在全网搜索后，它能以分段提炼等形式呈现搜索结果，并自动总结大纲、绘制思维导图。

而在增强模式中，" 天工 3.0" 能够针对用户的复杂 Query 进行拆解、细化，通过追问、信息理解与补全，使其在自然语义理解方面性能更强，更好地面对不确定性知识；同时，在影像生成方面，" 天工 3.0" 的改图扩图能力取得突破，可以让它绘制一张风景图，并逐步在图中增加新的物品或元素。

如今，对于用户而言，" 天工 3.0" 不仅适用于产业分析、市场研究、产品对比、知识管理等工作场景，也适用于内容创作、教育培训、智能搜索、语音合成、影像和音乐生成等娱乐场景。学生党、打工人可以利用天工 3.0 的研究模式和增强模式，通过简单的查询获得全面而精炼的资料，文献搜集、资料汇总等所需的时间大幅缩短，提升工作学习效率。

简单来说，" 天工 3.0" 现已成长为人类工作与生活的好 " 伙伴 "。

根据现在的进展，方汉相信，所有 AIGC 技术将会在两三年后达到一个足够可用的高度。

方汉向钛媒体 App 编辑表示，未来，大模型的发展将呈 B 端碎片化，C 端免费化，而 C 端 + 免费可能成为大模型落地的主要路径。在互联网时代，谷歌、微软、百度、阿里等都是靠这个逻辑成为互联网巨头，同样的道理也将延伸到大模型时代。

" 由于大模型对行业数据的需求，加之数据已经被分割在 B 端的不同碎片，很难有一家企业能够拿到全部行业的数据，导致 B 端碎片化；同时，中国用户的免费习惯是非常明显的，所以为 C 端用户提供服务的企业必然是以免费模式为主。" 方汉认为，C 端用户上限高达 80 亿，市场前景巨大，而要做到免费，AI UGC（用户生产内容）平台是一个好的商业模式。

方汉强调，移动互联网时代 " 免费 +to C" 的模式依然适用于 AI 时代。只有 " 免费 +to C" 才会产生 AI 时代的巨头。这是目前最合适的商业模式，也最容易盈亏平衡。

" 到 2035 年 AGI 终将实现 "

昆仑万维从 2020 年开始布局 AIGC 和大模型领網域，至今已积累近四年的相关工程研发经验，且研发投入巨大。

根据昆仑万维 2023 年第三季度报告，去年前 9 个月公司研发费用达 6.2 亿元，同比增长 28.18%。同时，公司十分重视开源生态，天工大模型在开发过程中也得到了开源社区上百位 AI 科学家的助力。

" 目前我们抽成三大业务板块，其中最重要的板块就是 AGI 与 AIGC 业务。作为一家海外互联网平台型企业，我们为什么会介入大模型或者 AGI 和 AIGC 技术方向？我们是以网游题材上市的，上市之后我们进行了转型，在海外大力做平台型业务，经我们从头孵化的大概千万级别 DAU 的互联网平台有 4 — 5 家左右，全部都与内容和社交赛道相关。所以我们一直对于内容生产领網域的革新非常关注。在 2020 年 GPT-3 发布之后，我们非常敏锐地意识到了这可能是内容生成领網域颠覆性机会。" 方汉曾表示。

2023 年 4 月，昆仑万维提出 "All in AGI 和 AIGC" 战略，不局限于单一的产品或技术，而是构建一个完整的 AI 生态系统，逐步了形成 AI 大模型、AI 搜索、AI 音乐、AI 社交、AI 游戏、AI 视频六大业务矩阵。

其中，AI 大模型和 AI 搜索作为底座，是所有 AIGC 能力的基础，音乐、视频、社交、游戏等方向则是昆仑万维在 AGI 道路上的探索，体现了其 AI UGC 平台商业模式。

2024 年 1 月，昆仑万维集团正式发布面向未来的全新使命、愿景和价值观：" 实现通用人工智能，让每个人更好地塑造和表达自我 "。

昆仑万维在愿景中称，" 我们深信，到 2035 年左右，通用人工智能（AGI）终将实现，人工智能将拥有，并超越人类的理解、学习、应用、甚至工作的能力，这将极大地推动社会的繁荣。"

事实上，为了做好大模型，昆仑万维做了很多准备。

在算力层面，昆仑万维有近万卡的训练资源，足够支撑训练下一代基于多模态的 MoE 大模型以及视频生成大模型。在技术上，为了与业内最先进的技术保持同步。

方汉向钛媒体 App 编辑坦言，他每周要阅读 3~4 篇技术论文，2023 年一共阅读了 200 多篇论文；还会在一线写代码，写 prompt，他写 prompt 的能力可能超过公司 90% 的同事；公司所有的算法博士，几乎都是方汉亲自面试的。

在应用层，昆仑万维的产品矩阵目的就是要打造一个综合 AI UGC 平台。

针对开源商业模式，方汉认为，在軟體行业，开源一直是一个很有争议性的话题，" 收取服务费 " 是軟體行业发展早期的方式，早期开源玩家如 MongoDB 等通过 SSPL 产品授权協定开创了新的商业模式，同时开源也成为了 ToB 企业的市场推广手段之一。" 开源模型与闭源模型是一个生态的组成部分，不是谁取代谁，而是一个互补关系，都会有自己的生存空间。"

对于模型性能，方汉认为，开源模型与闭源模型的差距已经从落后 2 年以上，追到仅落后 4 — 6 个月了，这证明了两者的差距是在缩小而非加大。另外，开源模型实际上是一种生态构建器，更有利于满足于用户的长尾需求。

（图片来源：钛媒体 App 编辑拍摄）

如今，昆仑万维已经打开了 AGI 这个 " 未来之门 "，以技术促增长，做长期有价值、难而正确的事，且以开源、开放的生态迎接即将到来的 AGI 时代。

" 公司成立 15 年来，我们一直在创业，每一天都是创业的状态。今天的我们，迎来了 15 年来最激动人心的创业状态，因为我们走在科技创业的最激动人心的道路上，但创业精神我们一直从未改变；我们要坚决打掉冻土层，做难而正确的事情。" 昆仑万维创始人周亚辉表示。

周亚辉坦言，我们当前处在充满不确定、不确定、复杂和模糊的时代。随着 AGI 加速发展，以及我们认知的不断迭代，我们对未来的展望也在不断发生变化。未来三十年，人类要从感知线，变成表达线，整个人类社会在自我表达方面要增加 1000 倍。创作和自我表达在过去很困难，因为工具门槛高，而未来 30 年是自我表达的 30 年，昆仑万维要用 AI 把人类创作的门槛降的足够低，让人们更充分地实现自我表达。

" 我们不追求成为一家‘大而全’的公司，而是希望成为一家‘小而大美’的公司，依靠强大的产品力，打动用户，给世界带来美好的改变。" 昆仑万维的目标是，实现通用人工智能，让每个人更好地塑造和表达自我。

（本文首发于钛媒体 App，作者｜林志佳）