💭 Velocity-Space 3D Asset Editing

Published in Arxiv, 2026

Arxiv地址：https://arxiv.org/abs/2605.07385

1. 关键词 (Keywords)

3D Asset Editing / 三维资产编辑
Velocity-Space Editing / 速度空间编辑
Rectified Flow / 整流流
Training-Free Editing / 免训练编辑
Mask-Free Editing / 无掩码编辑
Identity Preservation / 身份保持
TRELLIS 2.0

2. 背景与动机 (Background & Motivation)

这篇论文关注 3D asset 的局部编辑：只修改用户希望改变的区域，同时尽量保持其余几何、材质和纹理不变。

已有 3D 编辑方法通常依赖外部机制来保证局部性，例如人工 3D mask、后处理 voxel merging，或先做 2D 多视角编辑再提升到 3D。这些方法的问题是：它们没有直接干预生成器内部真正产生 identity drift 的位置，也就是 rectified-flow ODE sampler 的 velocity field。

作者的核心观察是：对于 rectified-flow 3D 生成器，局部编辑本质上是对 velocity field 的控制。理想情况是：

在目标编辑区域，velocity field 有足够强的 edit signal；
在非编辑区域，velocity field 尽量接近 0，避免破坏原资产。

但单一 velocity field 很难同时满足这两个目标，因此会出现 identity leakage、edit signal 不足，以及后续 geometry/material 阶段被全局 target condition 拉偏的问题。

3. 方法概述 (Method)

论文提出 VS3D (Velocity-Space 3D Asset Editing)，一个 inversion-free、training-free、mask-free 的 3D 编辑框架。它不训练新模型，也不要求用户提供 3D mask，而是在采样器内部对 velocity-space 进行干预。

RASI: Reconstruction-Anchored Source Injection

RASI 用于解决 Stage-1 dense occupancy latent 中的 identity leakage。

它将 unconditional embedding 从固定 null embedding 改造成每个时间步、每个资产相关的 source anchor。通过 source reconstruction probe，RASI 让 sampler 在非编辑区域的 velocity difference 尽量回到 0，从而减少对原始结构的破坏。

直观地说，RASI 的作用是先把“不要动的部分”锚住。

PMG: Partial-Mean Guidance

RASI 虽然能压制非编辑区域的漂移，但也可能削弱真正需要编辑区域的信号。PMG 用 Monte-Carlo velocity estimates 中 full-sample mean 和 partial-sample mean 的差异来放大一致的 edit direction。

它的特点是自动 gating：

非编辑区域中，RASI 已经让 velocity 接近 0，PMG 基本不会额外放大；
编辑区域中，如果多个采样都指向一致变化，PMG 会增强这个方向。

因此 PMG 负责“该动的地方动得更明显”。

TAR: Twin-Agreement Residual Injection

Stage-2 和 Stage-3 负责 geometry 与 material SLAT。这里 source 与 target 的 sparse coordinates 可能不同，不能直接做 Stage-1 那种 velocity coupling。

TAR 的做法是运行两个 sparse-DiT forward：

一个使用 target condition；
一个使用 source condition；
两者共享 scaffold、noise 和 sampler 设置。

如果某个 token 在 source/target 条件下输出相近，说明它更可能属于非编辑区域，可以注入 source residual 来保持原资产细节；如果差异大，则说明该 token 与编辑相关，应保留 target branch 的结果。

这相当于让 sampler 自己判断哪些 token 需要保留，哪些 token 应该更新。

4. 实验结果 (Results)

论文在 Objaverse-derived editing benchmark 上评估 VS3D，并与 TRELLIS 2.0、VoxHammer、Nano3D、Instant3dit、Edit360、VecSet-Edit 等方法比较。

VS3D 在大多数指标上取得最好结果：

PSNR：22.51
SSIM：0.867
LPIPS：0.145
DINO-I：0.841
CLIP-T：0.294
CD：0.034

其中 PSNR/SSIM/LPIPS 反映非编辑区域和目标视角的视觉保真，DINO-I 与 CLIP-T 衡量编辑语义是否到位，CD 衡量几何身份保持。VS3D 在视觉保真和编辑语义上都优于对比方法；CD 略低于 VoxHammer，但 VS3D 不需要用户提供 3D mask。

定性结果见 Figure 2。论文展示了 add、remove、replacement、compound edit 等多类编辑，VS3D 在保持非编辑区域的同时能生成较干净的局部变化。

消融实验见 Figure 3：

FlowEdit alone：非编辑区域出现明显 occupancy drift；
+RASI：结构漂移明显减少，但编辑强度不足；
+RASI+PMG：编辑区域更清晰；
+RASI+PMG+TAR：geometry/material 细节保留最好。

运行时间见原文 Table 2。VS3D 在单张 NVIDIA RTX 4090 上约 57 秒/asset，慢于 Instant3dit，但显著快于 VoxHammer、Nano3D 和 Edit360。

5. 总结 (Conclusion)

VS3D 的主要价值在于把 3D 局部编辑问题重新表述为 velocity-space control：不要依赖外部 mask 或后处理去修补生成结果，而是在 rectified-flow sampler 内部同时处理 identity preservation 和 edit amplification。

它的三个模块分工清晰：

RASI：关闭非编辑区域的 velocity leakage；
PMG：放大稳定的编辑信号；
TAR：在 geometry/material 阶段恢复 source 细节。

这使 VS3D 成为一个免训练、免反演、免 3D mask 的 3D asset editing 方法，适合需要快速局部编辑和资产身份保持的生成式 3D 工作流。

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)

Junjie Wang (王军杰)