今天小编分享的科技经验:文字生成音乐!Meta刚刚发布了“音乐界的ChatGPT”,还是“开源的”!,欢迎阅读。
从 AI 孙燕姿到 MusicGen,从演唱到创作,AI 已经全面入侵音乐领網域。
近日,Meta 在 Github 上开源了 AI 模型 MusicGen,引发外界关注。
顾名思义,MusicGen 是有一个音乐生成 AI 模型,可以根据文本和旋律提示创作音乐。
该模型基于谷歌 2017 年推出的 Transformer 模型,并采用 Meta 的 EnCodec 编译器将音频数据分解为小单元处理。
上周晚些时候,Meta 人工智能研究工程师 Felix Kreuk 在 Twitter 上展示了 MusicGen 的功能。
在视频演示中,MusicGen 分别将两个古典音乐片段改编成 80 年代的流行音乐和现代嘻哈音乐,它还根据提示加入了乐器、电子音等元素。
根据 Meta 的介绍,MusicGen 接受了 20000 小时的音乐训练,相当于人不吃不喝不睡觉训练 833 天。
该模型还使用了来自媒体内容服务商 ShutterStock 和 Pond5 10000 首 " 高质量 " 授权音乐和 390000 首纯音乐。
那么,练习时长两年半的 MusicGen,够格出道吗?
Meta 自己将 MusicGen 与市面上已有的音乐创作軟體 MusicLM(谷歌旗下)、Riffusion 以及 Mousai 进行了比较。
对此,华尔街见闻挑选了其中三个例子:
提示 1. 创作一首流行舞曲,要求旋律朗朗上口,加入热带打击乐因素,节奏欢快,适合沙滩场景。
MusicGen
MusicLM
Riffusion
Mousai
提示 2. 编一首气势宏伟的管线交响乐曲,加入雷鸣般的打击乐器、有史诗感的铜管乐和高昂的弦乐,创造一个适合英雄战斗的电影背景音乐。
提示 3. 创作一首经典雷鬼音乐,加入电吉他独奏。
不难听出,MusicGen 的表现似乎更加惊艳。
据 Meta 称,无论在与文本的匹配度上,还是在作曲的可信度上,MusicGen 在四者之间的表现都更胜一筹。
为了验证 MusicGen 是不是真有那么好,科技媒体 Techcrunch 记者 Kyle Wiggers 亲身试用了 MusicGen 和 MusicLM,对比两位 AI 音乐家的作品。
先说他的结论:
我得说,(MusicGen )还不至于让人类音乐家丢了工作,但它创作的音乐相当优美,至少对于 " 环境音乐 " 这样的基本提示语来说是这样,而且在我听来,它与谷歌的 AI 音乐生成器 MusicLM 相比,不分伯仲(如果不是稍微好一点的话)。
Wiggers 先是抛出了一个简单的提示语:爵士、电梯音乐。
MusicGen 和 MusicLM 拿出了以下作品:
然后,Wiggers 增加考试难度,让 AI 创作一首低保真、慢节奏的 Electro Chill(一种融合了电子音乐和放松氛围的音乐风格)音乐,要求使用自然、真实的声音。
两大模型作品如下:
对于第二个提示,Wiggers 发现,MusicGen 在音乐连贯性方面出人意料地胜过 MusicLM,其作品很容易在 YouTube 上的一个音乐全天直播频道 Lofi Girl 上找到来源。
最后,Wiggers 尝试让 MusicGen 和 MusicLM 创作具有知名作曲家 George Gershwin 风格的钢琴小曲。
他发现,谷歌在 MusicLM 的公开版本中嵌入了一个过滤器,阻止用户提示特定艺术家,以保护作者版权。
相比之下,MusicGen 就没有这样的过滤器,最终创作出了所谓 George Gershwin 风格的钢琴曲。
但在 Wiggers 看来,这首曲子并没有那么好。
值得一提的是,目前市面上存在许多文本、语音、图片甚至是视频生成模型,但优质的音乐生成模型少之又少。
根据在线科学预印本存储库 arXiv 中找到的研究檔案,音乐生成的主要挑战之一是需要运行全频谱,这需要更密集的采样,更不用说复刻音乐的复杂结构和乐器的配合了。
MusicGen 能否成为一款优秀的音乐生成模型,还有待更多用户的验证。
用户可以通过 Hugging Face 的 API 体验 MusicGen,但生成音乐可能需要一些时间,具体取决于同时在线的用户数量。
目前,Meta 尚未提供用于训练模型的代码,但提供了预训练模型。