YUE开源音乐大模型

YuE: Scaling Open Foundation Models for Long-Form Music Generation

对比suno的开源模型YuE（乐），基于 LLaMA2 架构，专注于长篇音乐生成，尤其是歌词到歌曲的难题，能够生成高达五分钟的音乐并保持歌词对齐和音乐结构的连贯性。

任务背景与目标

核心任务：论文瞄准 “lyrics-to-song”（歌词生成完整歌曲）的难题，要求模型在最长达 5 分钟的音乐上下文中，同时生成歌词对齐的人声和伴奏。这是一个高挑战的长上下文、多模态整合问题。

重要性：现有方法往往仅支持几十秒的音乐生成，且通常是闭源或仅限伴奏。YuE 弥补了歌词、人声、伴奏联合生成的空白，同时开放源代码，旨在与商业模型正面竞技。

YuE 包含两阶段生成流程：

Stage‑1：Music Language Modeling
- Track‑decoupled Next‑Token Prediction：将“人声”与“伴奏”分别模拟，避免混合编码导致的模糊信号，提升音轨清晰度
- Structural Progressive Conditioning：按段落级别逐步添加歌词上下文，确保长篇结构与歌词节奏对齐，不至于“脱戏” 。
- In‑Context Learning (ICL) for Music：支持双轨引用输入，可实现风格变换（如“和伴奏一致地”从日系 city pop 转成英文 rap）和双向生成。
Stage‑2：Residual Modeling
在 Stage‑1 的音频semantic token基础上，进一步生成残差层（codebook 1–7），提升音质与细节表现。最终结合所有层重构出高保真音频。

音频表示与解码

音频通过离散代码分级表示：

Stage‑1 生成 0层，Stage‑2 补充其余层，音频最终通过解码器重构。

训练策略

主观评价（A/B测试）

采用六项主观指标评估，包括音乐性、声乐灵活性、人歌词匹配、结构安排等，并以 Suno V4 作为基线：

自动指标

声乐音域范围（Vocal Range）：YuE 中位值约 27 个半音，接近 Suno V4 的表现，高于其他几乎模型（如 Hailuo、Tiangong 等 ~20 半音）
时长覆盖：支持超过 5 分钟生成，显著优于多数短片段模型
评价指标相关性分析：发现常规 CLAP 分数与主观音乐性相关性低，而 CLaMP3 分数与声乐范围表现出较好一致性，提示未来音乐评估指标需定制化

音乐理解任务

YuE 在 MARBLE benchmark（多标签音乐理解任务）上表现达到了或超过前沿模型，说明训练的表示不仅对生成有效，对理解也有泛化能力