使用SongGeneration腾讯AI Lab开源的音乐生成大模型,小白创作音乐不是梦

SongGeneration是腾讯AI Lab推出的AI音乐生成大模型,基于LLM-DiT融合架构,显著提升音质和生成速度。支持文本控制、多轨合成、风格跟随等功能,广泛应用于短视频配乐、游戏音效、商业广告等场景。在开源和商业模型中表现优异,推动AI音乐创作迈向“智能共创”阶段。

关键要点列表:

功能多样:支持文本控制生成音乐、风格跟随、多轨生成和音色克隆,满足创作者需求。
技术先进:采用LeLM和音乐编解码器技术,结合多偏好对齐和三阶段训练,优化生成质量。
性能领先:在开源模型中排名第一,商业模型中表现优异,主客观评测均获高分。
应用广泛:覆盖音乐创作、娱乐产业、教育、广告营销及个人娱乐等多个领域。
开源资源:提供GitHub仓库、HuggingFace模型库和技术论文,便于开发者使用和研究。

使用SongGeneration腾讯AI Lab开源的音乐生成大模型,小白创作音乐不是梦

SongGeneration是什么

SongGeneration是腾讯AI Lab推出的一款AI音乐生成大模型。该模型旨在解决音乐AIGC领域中的音质、音乐性和生成速度等关键问题。SongGeneration基于LLM-DiT融合架构,显著提升了音质表现和生成速度,生成的歌曲质量在多个维度上优于大多数开源模型,部分指标更是与商业闭源模型相媲美。该模型支持文本控制、多轨合成和风格跟随等功能,满足创作者对可玩性的需求,并具备商业应用的稳定性和扩展性。SongGeneration广泛应用于短视频配乐、游戏音效、虚拟人演出、商业广告及个人音乐创作等场景,推动AI音乐创作从“辅助工具”向“智能共创”的新阶段迈进。

SongGeneration的主要功能

文本控制:用户可以输入关键词文本,如“开心 流行”,AI会快速生成与这些风格和情绪相对应的完整音乐作品。
风格跟随:通过上传10秒以上的参考音频,系统支持生成风格一致的全长新曲,涵盖多种音乐流派。
多轨生成:自动生成分离的人声和伴奏轨道,确保旋律、结构、节奏与配器之间的高度匹配。
音色跟随:基于参考音频进行音色跟随,实现“音色克隆”级别的人声表现,展现自然且富有情感的音质。

SongGeneration的技术原理

  • LeLM(Language Model):混合标记(Mixed Tokens)代表人声和伴奏的组合音频,用在捕捉歌曲的整体结构和节奏,确保人声与伴奏的和谐。双轨标记(Dual-Track Tokens)分别编码人声和伴奏,用在生成高质量的音频细节。LeLM 能并行预测混合标记和双轨标记,避免不同标记类型之间的干扰,提高生成质量和效率。
  • 音乐编解码器(Music Codec):编码器(Encoder)将音乐音频提取为混合标记和双轨标记。解码器(Decoder)将双轨标记重建为高保真的音乐音频,确保生成的歌曲具有高质量的音频表现。
  • 多偏好对齐(Multi-Preference Alignment):直接偏好优化(DPO)基于半自动数据构建和 DPO 后训练,处理多样化的人类偏好,提高模型在音乐性、指令遵循和人声与伴奏和谐方面的表现。多维度偏好支持歌词对齐、提示一致性、音乐性等多个维度的偏好对齐,提升生成歌曲的整体质量。
  • 三阶段训练范式
    • 预训练(Pre-training):在大规模音乐数据上进行预训练,对齐不同输入模态和混合标记。
    • 模块扩展训练(Modular Extension Training):进一步训练 AR 解码器,建模双轨标记,提升音质和音乐性。
    • 多偏好对齐(Multi-Preference Alignment):基于 DPO 后训练,优化模型在多维度偏好上的表现。

SongGeneration的项目地址

  • GitHub仓库:https://github.com/tencent-ailab/SongGeneration
  • HuggingFace模型库:https://huggingface.co/tencent/SongGeneration
  • arXiv技术论文:https://arxiv.org/pdf/2506.07520
  • 在线体验Demo:https://huggingface.co/spaces/tencent/SongGeneration

SongGeneration的核心优势

  • 低比特率音乐编解码:实现25Hz极低码率和0.35kbps超低比特率下的高质量音乐重建,减轻语言模型建模负担。
  • 多类别token并行预测:基于“混合优先,双轨其次”策略,避免token相互干扰,提升音质和音乐性。
  • 多维度人类偏好对齐:对齐音乐性、歌词对齐、提示一致性偏好,提升模型效果和鲁棒性。
  • 三阶段训练范式:预训练、模块化扩展训练、多偏好对齐训练,优化音乐生成效果。

SongGeneration的性能表现

  • 主客观整体测评:在与三款商业模型(Suno v4.5、海绵音乐Mureka O1)和四款开源模型(YuEDiffRhythmACE-StepSongGen)的全方位主客观评测对比中,SongGeneration在开源模型中稳居第一,在商业模型中位列前茅,展现出显著的竞争优势。
  • 客观测评(第三方开源模型评测):在客观测评横向对比中中,SongGeneration在内容欣赏度(CE)、内容实用性(CU)和制作质量(PQ)三个关键维度上均位列榜首,制作复杂度(PC)处于领先位置。
  • 主观评测(普通用户 + 专业音乐人评测):在主观评测中,SongGeneration在歌词准确度上超越包括Suno在内的众多大模型,体现模型在语音与文本对齐能力上的显著优势,及在内容生成细节处理方面的成熟度。

使用SongGeneration腾讯AI Lab开源的音乐生成大模型,小白创作音乐不是梦

SongGeneration的应用场景

音乐创作:SongGeneration为音乐人和制作人提供高质量的歌曲草稿,节省创作时间,帮助他们专注于核心创作,激发创意灵感。
娱乐产业:在影视、游戏和广告等娱乐领域,SongGeneration能够快速生成符合需求的配乐,增强作品的沉浸感与吸引力,丰富音乐内容。
教育领域:作为音乐教育工具,SongGeneration帮助学生理解音乐基础知识,激发创造力,并辅助在线课程提供示例歌曲,从而提升教学效果。
广告和营销:SongGeneration为广告和品牌生成符合主题的音乐,增强广告的吸引力和品牌认同感,助力品牌营销。
个人娱乐:普通用户可以利用SongGeneration创作个性化歌曲,表达情感,并在社交平台上分享,增添娱乐互动的乐趣。

原创文章,作者:dakule,如若转载,请注明出处:https://dakule.com/content/173.html

(0)
上一篇 2025年6月13日 14:45
下一篇 2025年6月22日 10:25

相关推荐