今天小编分享的科学经验:全球AI音乐会,第一次听见中国声音,欢迎阅读。
盛夏将至,各条 AI 赛道也热烈了起来。如果评选一下,近段时间哪个领網域的 AI 应用最为火爆,那么 AI 音乐创作绝对名列前茅。
一个月之前,海外初创企业 Suno 发布新版 AI 音乐生成大模型 Suno V3,它可以根据用户自然语言快速生成相关风格音乐,在全球范围内引发热议。而就在不久前,来自前 DeepMind 团队成员的 Udio 音乐大模型发布。这款模型可以带来非常逼真的音乐制作效果,并且可以完成多段式、长音乐作品的生成。
AI 音乐生成大模型赛道,竞争突然激烈了起来。加上 OpenAI 的 MuseNet、谷歌的 MusicLM、Meta 的 MusicGen 等项目,我们似乎在今年迎来了一场全球 AI 音乐会。一时间异彩纷呈,好不热闹。
但在这场 AI 音乐会中,有一个现象非常值得重视:这一次,中国科技与全球前沿 AI 趋势之间没有时差,无缝衔接。我们不再是跟随者与追赶者,而是第一时间加入了这场音乐与 AI 的盛宴,奏响了属于自己的旋律。
4 月 2 日,由昆仑万维打造的 AI 音乐生成大模型 " 天工 SkyMusic" 开启免费邀测,4 月 17 日更是正式发布。
天工 SkyMusic 是国内唯一公开可用的 AI 音乐生成大模型,也是中国首个音乐 SOTA 模型。
它与震撼全球科技与音乐产业的 Suno、Udio 保持了时间线上的高度同步,同时多个领網域的技术能力更加出色。在与 Suno V3 的横向测评中,天工 SkyMusic 在人声 &BGM 音质、人声自然度、发音可懂度等领網域显著领先对手,并以 6.65 分的综合得分超越 Suno V3,成为全球 AI 音乐最新 SOTA 模型。
" 中国 AI 不缺席 ",是一段我们期待了很久的旋律。究竟是什么让昆仑万维能够完成这次演奏?天工 SkyMusic,以及背后的天工 3.0 有着怎样的产业与社会价值?
让我们打开这场全球 AI 音乐会,听懂一首关于 " 中国 AI 不缺席 " 的盛夏奏鸣曲。
天工 SkyMusic
东方的 AI 音乐会
不缺席的中国 AI 音乐大模型,不仅需要第一时间跻身行业一线,更需要在能力上拿出足够有说服力的答案。
天工 SkyMusic 在发布之后,获得了各方非常积极的反馈。来自媒体、音乐人与行业专家以及广大用户的声音,证明了其具备加入全球 AI 音乐大模型竞逐的底气。AI 音乐会不仅发生在欧美,同时也奏响在东方。
首先,我们可以具体来看一下天工 SkyMusic 在技术能力上的特色。
通过采用音乐音频领網域类 Sora 的 DiT 模型架构,天工 SkyMusic 在 AI 音乐大模型的几个核心能力指标上都有不俗的表现。
其中包括高质量的音乐生成能力、高逼真的人声模拟能力、高丰富度的歌词段落控制能力、高规模的音乐风格掌握,以及高灵活的音乐表达。
举例而言,欧美 AI 音乐风格多以 " 器 " 见长,更偏重乐器丰富度参数,但在人声拟合方面往往表现一般。
相较而言,昆仑万维天工 SkyMusic 则专门在人声自然度、发音可懂度上进行了模型专门训练,使得 AI 发音清晰、无异响,让大模型生成的音乐足以 " 以假乱真 "。
此外,天工 SkyMusic 所能够创作的音乐,展现出了对多种不同音乐风格,不同生成诉求的把握。比如神曲改造对流行音乐的把握,古诗词改编对中国传统文化与格律的把握等。
透过广泛的生成案例,我们可以发现天工 SkyMusic 具有丰富的使用场景与广泛的需求人群,例如:
1. 音乐从业者可以借助天工 SkyMusic 寻找灵感,辅助音乐创作。比如说,创作者可以输入一些 " 母题 ",包括亲情、爱情等。通过天工 SkyMusic 生成的歌词与旋律来寻找灵感,探索创作边界。
2. 短视频创作者和 UP 主可以通过音乐生成来拓展创作边界,降低音乐方案的创作门槛。比如说,UP 主可以用天工 SkyMusic 改编 " 网络神曲 ",获得新的视频 BGM。下面这首神曲,天工 SkyMusic 就可以为你带来完全不一样的感受。
3. 音乐爱好者与粉丝可以获得更多样的音乐乐趣,与自己喜欢的音乐类型、音乐风格进行更加多样性、深层次的互动。比如我们可以换一个声音,把我们喜欢的音乐进行重新演绎。
4. 在教育教学场景中,天工 SkyMusic 可以用来辅助音乐教育,让学习者感受到音乐创作的内在逻辑与丰富技巧。同时还能够助力传统文化、乐器演奏等方面的教育教学。比如说,天工 SkyMusic 可以基于古诗词生成音乐,让学生更生动准确掌握古典文化的精髓。
在这样的应用价值基础上,我们还必须看到天工 SkyMusic 作为国内最早,也是目前唯一的 AI 音乐大模型,在填补产业空白方面的价值是巨大的。它的出现,意味着中国用户有了更加符合华语音乐创作习惯的 AI 模型,对中文有了更好的支持。同时它完全免费,不限使用次数,无需额外的使用门槛,这都是国外同类 AI 音乐模型所无法实现的。
而从技术角度上看,天工 SkyMusic 对比 MuseNet、MusicLM、MusicGen 等项目也具备独特的技术优势。
除了上文提到的人声合成演唱能力外,在音乐风格上天工 SkyMusic 更加精巧且多元。它能够通过歌词控制情绪变化,实现如颤音、歌剧、吟唱等多种歌唱技巧,并且可以使生成的音乐作品情感更加丰富且贴合情境。在此基础上,天工 SkyMusic 支持创作说唱、民谣、放克、古风、电子等多种音乐风格,用户可以根据个人喜好定制音乐风格。
总体来看,天工 SkyMusic 开创了中国 AI 音乐大模型的先河,成为中国首个音乐 AIGC SOTA,并且大幅提高了 AI 大模型音乐生成在人声领網域的技术表现。
天工 3.0
全球最大规模的开源 MOE 大模型
天工 SkyMusic 能够与全球 AI 音乐会同频奏响,背后必然离不开两点:一是战略方向的敏锐把握,二是技术底座的基石打造。
而天工 SkyMusic 背后的技术基石,则是刚刚发布的 " 天工 3.0"。
天工 3.0 采用了 4000 亿级参数 MoE 混合专家模型,是目前全球模型参数最大、性能最强的 MoE 模型之一。相较于上一代天工 2.0MoE 大模型,其在模型语义理解、逻辑推理,以及通用性、泛化性、不确定性知识、学习能力等领網域都有着大幅的性能提升,其模型技术知识能力提升超过 20%,数学 / 推理 / 代码 / 文创能力提升超过 30%。
具体来看,天工 3.0 在四个方向带来了全面更新:
首次是逻辑推理能力的增强。天工 3.0 强大的逻辑推理能力使其能够在实际应用中更加准确和高效地处理信息。例如,在天工 3.0AI 搜索的研究模式中,能够围绕用户的某个简单指令进行相关问题的延伸,并实时判断该段落信息是否需要联网搜索。在分析某个具体行业的信息时,能够实现总结相关事件、拆解产业链地图等复杂功能,并以结构化或思维导图的形式进行最终展示,让 AIGC 能力与行业应用更紧密融合。
其次,是语义理解能力的增强。天工 3.0 能够更好地理解和处理用户自然语言 Query 中的复杂语义信息,包括隐喻、多义词等。比如说,天工 3.0 可以对用户 Query 进行拆解、细化,甚至对用户进行追问,从而在面对不确定知识时表现更好,能够满足用户多样化的需求。
此外,天工 3.0 新增了专项 Agent 训练能力。天工 3.0 可以针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练,使其能够独立生成并调用代码,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。
针对 B 端产业用户的需求,天工 3.0 也在知识库能力、任意工具调用能力、复杂角色指令追寻能力等领網域进行了更新,企业用户可以通过上传知识文档构建专属知识库及 Agent,并实现自动调用制定工具、完成复杂指令遵循 Agent 构建等实用能力。
最后,天工 3.0 的内容生成能力也得到了全面更新。对比天工 2.0,天工 3.0 群星了全面的内容创作能力增强,能够完成 AI 音乐生成、AI 语音、AI 对话、AI 二次元漫画生成等内容创作。还可以通过专项 Agent 训练实现在对话中结合文本需求实时生成图片、结合文本需求实时内容分析及图表构建等能力。
总结天工 3.0 的技术特点,最为关键的一点就是:独立思考。
天工 3.0 可以将复杂任务进行拆解优化,并在每一步都独立思考,判断每一步是否需要调用不同的工具。也是基于独立思考能力,天工 3.0 新增了联网能力、文生图、代码能力等优势应用能力,同时增强了 AI 搜索等能力的表现。
更为值得注意的是,性能强大,技术独创性极强的天工 3.0,选择了开源开放的策略。在全球开源大模型极速发展,基于开源生态的 AI 应用百花齐放的大背景下,天工 3.0 的开源无疑是给中国 AI 开源事业注入了强心剂。全面提升了中国开源大模型的整体技术水平与产业底座厚度。
在选择开源开放的同时,天工 3.0 还搭建了智能体广场,帮助开发者定制化打造智能体。更好的中文适配度,也让天工 3.0 与中文开发需求更加契合。
全面增强的能力,更加丰富的功能,以及与开发者更紧密地契合,让天工 3.0 成为一块基石—— " 中国 AI 不缺席 " 的基石。
这一次,中国 AI 不缺席
过去 AI 行业内部总是认为,我们与欧美顶级 AI 企业之间存在着时间差。在新模型、新技术火热之后,中国 AI 行业才开始跟随和学习。
但在 AI 音乐大模型的热潮里,情况显然并非如此。为什么我们这次可以不跟随,不焦虑,而是第一时间抵达这个舞台,开始自己的演奏?
事实上,在 AI 音乐生成这个方向上,昆仑万维一直保持着高度关注。早在 2022 年 12 月昆仑万维发布的 " 昆仑天工 "AIGC 全系列开源算法与模型中,就包括多模态音乐内容生成大模型。此后,昆仑万维还打造了多个基于 AI 音乐大模型的合作项目,掌握了丰富的实践经验。昆仑万维关注并且重视 AI 音乐生成,是天工 SkyMusic 的战略牵引。
天工 3.0 与天工 SkyMusic 的发布展现出来了这样一个价值逻辑:在 AI 大模型快速发展的产业纪元里,想要提升创新效率,把握战略机遇,需要首先孕育一个底座。这个底座可以融合各种先进的 AI 技术能力。
昆仑万维集团董事长兼 CEO 方汉认为,SOTA 指的是当前技术在本领網域技术指标全球第一。OpenAI 是文本大模型和视频生成大模型的 SOTA,而昆仑万维目前实现了音乐 AIGC 的 SOTA。
之所以能够实现这一点,有赖于天工 3.0 提供了底座级别的 AI 能力,进而实现发展效率与发展质量的统一。
昆仑万维创始人周亚辉认为:" 未来三十年,人类社会很大的一个变化,是人类要从感知线,变成表达线,整个人类社会在自我表达侧要翻 1000 倍;创作和自我表达是未来 30 年在整个社交和文化领網域增长最快的曲线,会有越来越多人表达自我,表达对世界的理解、对社会事物的态度,表达越来越艺术化和趣味化;这种表达在过去很困难,因为工具门槛高,而未来 30 年是自我表达的 30 年,我们要用 AI 把人类创作的门槛降得足够低,让人们更充分地实现自我表达。"
基于昆仑万维 "All in AGI 和 AIGC" 的战略布局,天工 3.0 成为集自然语言处理、计算机视觉、多模态、AI 搜索、AI 智能体等多项前沿技术为一身的 AI 大模型。基于天工 3.0 提供的底座能力,昆仑万维可以敏锐步骤发展机会,抓住诸如 AI 音乐创作这样的产业风口。而广大开发者则可以获得多元且丰富的 AI 能力,将 AI 带到千行百业的每个角落。
以超级模型蕴育种种 AI 技术,包容千行百业,这才是全球 AI 音乐会中,那道独特且悦耳的东方旋律。
在起步阶段的天工 SkyMusic,已经为用户带来了丰厚的音乐创作乐趣。随着未来的持续优化更新,我们会得到一个专业且易用的音乐创作平台。围绕天工 SkyMusic,将可能出现 AI 音乐创作者生态,新的音乐明星。进而影响音乐行业的发展。
在全球 AI 音乐的热潮背后,我们可以看到从 " 中国 AI 不缺席 " 到 " 中国 AI 如何引领 " 的深刻变革。