今天小編分享的科技經驗:文字生成音樂!Meta剛剛發布了“音樂界的ChatGPT”,還是“開源的”!,歡迎閱讀。
從 AI 孫燕姿到 MusicGen,從演唱到創作,AI 已經全面入侵音樂領網域。
近日,Meta 在 Github 上開源了 AI 模型 MusicGen,引發外界關注。
顧名思義,MusicGen 是有一個音樂生成 AI 模型,可以根據文本和旋律提示創作音樂。
該模型基于谷歌 2017 年推出的 Transformer 模型,并采用 Meta 的 EnCodec 編譯器将音頻數據分解為小單元處理。
上周晚些時候,Meta 人工智能研究工程師 Felix Kreuk 在 Twitter 上展示了 MusicGen 的功能。
在視頻演示中,MusicGen 分别将兩個古典音樂片段改編成 80 年代的流行音樂和現代嘻哈音樂,它還根據提示加入了樂器、電子音等元素。
根據 Meta 的介紹,MusicGen 接受了 20000 小時的音樂訓練,相當于人不吃不喝不睡覺訓練 833 天。
該模型還使用了來自媒體内容服務商 ShutterStock 和 Pond5 10000 首 " 高質量 " 授權音樂和 390000 首純音樂。
那麼,練習時長兩年半的 MusicGen,夠格出道嗎?
Meta 自己将 MusicGen 與市面上已有的音樂創作軟體 MusicLM(谷歌旗下)、Riffusion 以及 Mousai 進行了比較。
對此,華爾街見聞挑選了其中三個例子:
提示 1. 創作一首流行舞曲,要求旋律朗朗上口,加入熱帶打擊樂因素,節奏歡快,适合沙灘場景。
MusicGen
MusicLM
Riffusion
Mousai
提示 2. 編一首氣勢宏偉的管線交響樂曲,加入雷鳴般的打擊樂器、有史詩感的銅管樂和高昂的弦樂,創造一個适合英雄戰鬥的電影背景音樂。
提示 3. 創作一首經典雷鬼音樂,加入電吉他獨奏。
不難聽出,MusicGen 的表現似乎更加驚豔。
據 Meta 稱,無論在與文本的匹配度上,還是在作曲的可信度上,MusicGen 在四者之間的表現都更勝一籌。
為了驗證 MusicGen 是不是真有那麼好,科技媒體 Techcrunch 記者 Kyle Wiggers 親身試用了 MusicGen 和 MusicLM,對比兩位 AI 音樂家的作品。
先說他的結論:
我得說,(MusicGen )還不至于讓人類音樂家丢了工作,但它創作的音樂相當優美,至少對于 " 環境音樂 " 這樣的基本提示語來說是這樣,而且在我聽來,它與谷歌的 AI 音樂生成器 MusicLM 相比,不分伯仲(如果不是稍微好一點的話)。
Wiggers 先是抛出了一個簡單的提示語:爵士、電梯音樂。
MusicGen 和 MusicLM 拿出了以下作品:
然後,Wiggers 增加考試難度,讓 AI 創作一首低保真、慢節奏的 Electro Chill(一種融合了電子音樂和放松氛圍的音樂風格)音樂,要求使用自然、真實的聲音。
兩大模型作品如下:
對于第二個提示,Wiggers 發現,MusicGen 在音樂連貫性方面出人意料地勝過 MusicLM,其作品很容易在 YouTube 上的一個音樂全天直播頻道 Lofi Girl 上找到來源。
最後,Wiggers 嘗試讓 MusicGen 和 MusicLM 創作具有知名作曲家 George Gershwin 風格的鋼琴小曲。
他發現,谷歌在 MusicLM 的公開版本中嵌入了一個過濾器,阻止用戶提示特定藝術家,以保護作者版權。
相比之下,MusicGen 就沒有這樣的過濾器,最終創作出了所謂 George Gershwin 風格的鋼琴曲。
但在 Wiggers 看來,這首曲子并沒有那麼好。
值得一提的是,目前市面上存在許多文本、語音、圖片甚至是視頻生成模型,但優質的音樂生成模型少之又少。
根據在線科學預印本存儲庫 arXiv 中找到的研究檔案,音樂生成的主要挑戰之一是需要運行全頻譜,這需要更密集的采樣,更不用說復刻音樂的復雜結構和樂器的配合了。
MusicGen 能否成為一款優秀的音樂生成模型,還有待更多用戶的驗證。
用戶可以通過 Hugging Face 的 API 體驗 MusicGen,但生成音樂可能需要一些時間,具體取決于同時在線的用戶數量。
目前,Meta 尚未提供用于訓練模型的代碼,但提供了預訓練模型。