[ICLR 2026] YuE: Scaling Open Foundation Models for Long-Form Music Generation

Published in ICLR, 2026

Arxiv地址：https://arxiv.org/abs/2503.08638

Github: https://github.com/multimodal-art-projection/YuE

Demo: https://map-yue.github.io/

1. 关键词 (Keywords)

长音频/完整歌曲生成 / Long-form music (full-song) generation
音频语言模型 / Audio Language Model (Audio LM)
离散音频标记化 / Discrete audio tokenization
双轨下一标记预测 / Track-Decoupled Next-Token Prediction (Dual-NTP)
结构化渐进条件化 / Structural Progressive Conditioning (CoT)
音频上下文学习 / Music In-Context Learning (ICL)
残差码本建模 / Residual codebook modeling
可控性评测与人类偏好 / Controllability & human preference evaluation

2. 背景与动机 (Background & Motivation)

问题定义

论文关注一个明确但长期难解的目标：在开放（可复现）范式下，实现分钟级、结构完整、具备人声且能遵循歌词与风格控制的“整首歌”生成。作者将关键挑战聚焦在两点：

音乐性（musicality）：旋律、和声、编配与整体审美的连贯与成熟度。
歌曲级歌词跟随（song-level lyrics-following）：长时程范围内人声内容与歌词对齐、可懂度与稳定性。

研究动机

当前高体验产品多为闭源系统；开放体系受限于数据治理、长上下文训练、tokenizer/decoder 能力以及可控性机制，通常难以同时达到“长时程结构 + 人声可懂 + 声学质量”。
自动指标与人类感知存在显著错位，导致研究社区很难用可靠的离线指标闭环改进。论文因此强调以人评为主，并系统检验自动指标与人评的相关性，试图建立更可用的评测代理信号。

3. 核心方法 (Core Methodology)

整体架构

YuE 是一个两阶段的自回归 Transformer 系统：

Stage-1 LM：建模文本 token 与更偏语义层的 codebook-0（在“歌词到歌曲”设置中采用双轨 token 形式）。
Stage-2 LM：在给定 Stage-1 的 codebook-0 语义骨架后，生成其余 残差码本（1–7）补足声学细节；推理时对 codebook-0 进行 clamp，以保持语义与控制对齐。

整体思想是“先语义后细节”：Stage-1 负责结构、旋律/人声语义骨架与控制一致性；Stage-2 负责音色、质感、细节与真实感。

创新机制

(i) Dual-NTP：双轨下一标记预测（vocal/accompaniment 解耦） 传统“混合音频 token”迫使单一 token 同时表示人声与伴奏，伴奏容易掩蔽人声信息，使歌词可懂度下降。Dual-NTP 将每个时间步拆成两类 token：vocal token 与 accompaniment token，并以联合概率分解的方式实现自回归解码，从建模层面显式减轻“人声被伴奏淹没”的问题。

(ii) 结构化渐进条件化（CoT）：段落级结构先验注入 利用自动分段与结构标签（intro/verse/chorus/bridge/outro 等），把“段落标签 + 段落歌词 + 段落音频 tokens”按段落交错组织成训练文档。生成时遵循从“宏观结构 → 局部段落”的渐进约束路径，缓解长程生成中的结构漂移与歌词跟随衰减。

(iii) Music ICL：以参考音频作为强条件约束 在条件序列前加入 20–40 秒参考音频 token（支持单轨/双轨），并配合人声/风格相关提示，使生成更容易稳定在合理的音乐子空间，显著提高整体音乐性与可控一致性。

(iv) 残差码本建模：时间对齐的 factorization Stage-2 将每帧多码本 token 作为 tuple 建模，采用严格时间对齐的分解，并在序列组织上让模型先“看到全局 codebook-0 骨架”，再补全每帧的残差码本，从而提升细节补全的稳定性。

实现细节（简要）

Tokenizer/Codec：采用多码本 RVQ 风格的离散表示；强调 codebook-0 含有丰富旋律与人声语义信息，适合作为 Stage-1 的主建模对象。
推理策略：Stage-1 强制解码至音频结束标记；Stage-2 强制使用 Stage-1 的 codebook-0，并限制词表范围；同时使用 CFG 等 test-time trick 提升 good-case rate。

4. 实验设计 (Experimental Design)

数据集与预处理

音乐数据：从互联网挖掘大规模 in-the-wild 音乐数据（小时级规模为数十万量级），其中一部分具有歌词配对信息。
语音/TTS 数据：引入大规模公开语音数据集，用于提升人声相关建模能力与稳健性。
训练策略：多阶段训练包含 warmup、上下文扩展、退火与控制注入；退火阶段引入质量筛选得到高质量子集；控制信号（CoT/ICL）在总训练 compute 中占比相对较低，但用于显著提升可控性与歌词跟随。

对比模型 (Baselines)

选取多个代表性闭源系统（如 Suno、Udio 等）作为黑盒 baseline，并明确评测时间点，强调闭源系统随版本更新而变化这一不可控因素。

评估指标 (Metrics)

人评（核心）：采用 A/B test 的偏好比较；评测者包含领域专家与受训音乐人；测试提示包含 genre/instrument/emotion/lyrics/tempo，并提供 chorus reference 音频。
自动指标（辅助）：包含分布距离与质量指标（如 FAD、KL）、以及音频-文本对齐指标（如 CLAP/CLaMP3 等），并额外分析其与人评的相关性。
任务化指标：如 vocal range（人声灵活度/表现力 proxy）与生成时长分布（长程结构能力）。
表示能力评测：在音乐理解/分类基准上评估表示质量与泛化能力。

5. 实验结果与分析 (Results & Analysis)

主要结果

自动指标层面：YuE 在若干分布/对齐指标上表现较强，但不同对齐指标之间可能出现显著分歧，提示自动指标与人类感知不一致；因此自动指标需要谨慎解释。
人评层面：YuE 相比部分闭源系统有显著提升，与若干闭源系统大体相当，但仍落后于最强闭源系统。优势更集中在歌曲结构与编配，短板集中在人声与伴奏的声学质量，主要来自 tokenization/decoder 的上限。
长时长与结构能力：YuE 的生成时长分布更宽、整体更长，显示长程结构建模能力更强；在人声表现力 proxy 上也接近顶级系统。

消融研究 (Ablation Study)

Dual-NTP 的有效性：通过伴奏掩蔽导致歌词信息损失的分析（例如在低人声占比时更明显），以及在同等算力/数据下训练 loss 的改善，证明双轨建模更利于捕捉人声信息并提升歌词可懂度。
CoT 的贡献：在多时长区间对比不同训练策略，CoT 在歌词跟随（如 WER）上显著优于替代方案；且该能力对规模高度敏感，模型扩展带来显著跃迁。
Test-time tricks（ICL/CFG）：ICL 的人评胜率显著高于纯 CoT；ICL 与 CFG 组合效果最好。解释为 ICL 将生成限制在更合理的音乐子空间，CFG 放大条件约束，从而提高好样本比例。

案例分析 (Case Study)

论文展示了多类“涌现”与可控能力案例：多种演唱技巧、即兴元素、多声部和声、跨风格融合等；也报告 style transfer、code switching、一定程度 voice cloning 等现象级能力。这些案例与“Dual-NTP + ICL 强条件”路线一致。

6. 总结与贡献 (Conclusion & Contribution)

主要结论

通过“tokenizer/codec 选择 + Dual-NTP 解耦建模 + 段落级结构条件化（CoT）+ ICL/CFG 推理技巧 + 大规模多阶段训练”，开放模型可以在长音频整首歌生成上达到高水准体验，并在结构与编配方面具备明显竞争力；但声学质量（尤其人声与伴奏质感）仍是与最强闭源系统的主要差距来源。

核心贡献

Dual-NTP：显式解耦人声/伴奏建模，提升歌词可懂度与建模效率。
结构化渐进条件化（CoT）：以段落结构先验组织样本，改善长程歌词跟随与结构稳定性。
系统化 scaling 路线：从数据、训练阶段、控制注入到推理技巧给出可复现范式，并用大规模人评校准结论。
记忆/复制风险分析：针对 ICL 可能放大记忆风险给出检索式相似度分析，尝试论证未出现大规模复制（但开放部署仍需更强策略）。

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)

Junjie Wang (王军杰)