今天小編分享的科技經驗:Meta開源AI語言模型MusicGen,可将文本和旋律轉化為完整樂曲,歡迎閱讀。
品玩 6 月 12 日訊,Meta 近日在 Github 上開源了其 AI 語言模型 MusicGen,該模型基于谷歌 2017 年推出的 Transformer 模型。如同模型名稱所示,MusicGen 主要用于音樂生成,它可以将文本和已有的旋律轉化為完整樂曲。
研發團隊表示:" 我們使用了 20000 小時的授權音樂來對訓練該模型,并采用 Meta 的 EnCodec 編碼器将音頻數據分解為更小的單元進行并行處理,進而讓 MusicGen 的運算效率和生成速度都比同類型 AI 模型更為出色。"
除此之外,MusicGen 還支持文本與旋律的組合輸入,例如你可以提出生成 " 一首輕快的曲目 " 并同時要求 " 将它與貝多芬的《歡樂頌》結合起來 "。
研發團隊還對 MusicGen 的實際表現進行了測試。結果顯示,與谷歌的 MusicLM 以及 Riffusion、Mousai、Noise2Music 等其他音樂模型相比,MusicGen 在測試音樂與文本提示的匹配度以及作曲的可信度等指标上表現更好,總體而言略高于谷歌 MusicLM 的水平。