💭 Velocity-Space 3D Asset Editing

Published in Arxiv, 2026

Arxiv地址:https://arxiv.org/abs/2605.07385

1. 关键词 (Keywords)

  • 3D Asset Editing / 三维资产编辑
  • Velocity-Space Editing / 速度空间编辑
  • Rectified Flow / 整流流
  • Training-Free Editing / 免训练编辑
  • Mask-Free Editing / 无掩码编辑
  • Identity Preservation / 身份保持
  • TRELLIS 2.0

2. 背景与动机 (Background & Motivation)

这篇论文关注 3D asset 的局部编辑:只修改用户希望改变的区域,同时尽量保持其余几何、材质和纹理不变。

已有 3D 编辑方法通常依赖外部机制来保证局部性,例如人工 3D mask、后处理 voxel merging,或先做 2D 多视角编辑再提升到 3D。这些方法的问题是:它们没有直接干预生成器内部真正产生 identity drift 的位置,也就是 rectified-flow ODE sampler 的 velocity field。

作者的核心观察是:对于 rectified-flow 3D 生成器,局部编辑本质上是对 velocity field 的控制。理想情况是:

  • 在目标编辑区域,velocity field 有足够强的 edit signal;
  • 在非编辑区域,velocity field 尽量接近 0,避免破坏原资产。

但单一 velocity field 很难同时满足这两个目标,因此会出现 identity leakage、edit signal 不足,以及后续 geometry/material 阶段被全局 target condition 拉偏的问题。

3. 方法概述 (Method)

论文提出 VS3D (Velocity-Space 3D Asset Editing),一个 inversion-free、training-free、mask-free 的 3D 编辑框架。它不训练新模型,也不要求用户提供 3D mask,而是在采样器内部对 velocity-space 进行干预。

RASI: Reconstruction-Anchored Source Injection

RASI 用于解决 Stage-1 dense occupancy latent 中的 identity leakage。

它将 unconditional embedding 从固定 null embedding 改造成每个时间步、每个资产相关的 source anchor。通过 source reconstruction probe,RASI 让 sampler 在非编辑区域的 velocity difference 尽量回到 0,从而减少对原始结构的破坏。

直观地说,RASI 的作用是先把“不要动的部分”锚住。

PMG: Partial-Mean Guidance

RASI 虽然能压制非编辑区域的漂移,但也可能削弱真正需要编辑区域的信号。PMG 用 Monte-Carlo velocity estimates 中 full-sample mean 和 partial-sample mean 的差异来放大一致的 edit direction。

它的特点是自动 gating:

  • 非编辑区域中,RASI 已经让 velocity 接近 0,PMG 基本不会额外放大;
  • 编辑区域中,如果多个采样都指向一致变化,PMG 会增强这个方向。

因此 PMG 负责“该动的地方动得更明显”。

TAR: Twin-Agreement Residual Injection

Stage-2 和 Stage-3 负责 geometry 与 material SLAT。这里 source 与 target 的 sparse coordinates 可能不同,不能直接做 Stage-1 那种 velocity coupling。

TAR 的做法是运行两个 sparse-DiT forward:

  • 一个使用 target condition;
  • 一个使用 source condition;
  • 两者共享 scaffold、noise 和 sampler 设置。

如果某个 token 在 source/target 条件下输出相近,说明它更可能属于非编辑区域,可以注入 source residual 来保持原资产细节;如果差异大,则说明该 token 与编辑相关,应保留 target branch 的结果。

这相当于让 sampler 自己判断哪些 token 需要保留,哪些 token 应该更新。

4. 实验结果 (Results)

论文在 Objaverse-derived editing benchmark 上评估 VS3D,并与 TRELLIS 2.0、VoxHammer、Nano3D、Instant3dit、Edit360、VecSet-Edit 等方法比较。

VS3D 在大多数指标上取得最好结果:

  • PSNR:22.51
  • SSIM:0.867
  • LPIPS:0.145
  • DINO-I:0.841
  • CLIP-T:0.294
  • CD:0.034

其中 PSNR/SSIM/LPIPS 反映非编辑区域和目标视角的视觉保真,DINO-I 与 CLIP-T 衡量编辑语义是否到位,CD 衡量几何身份保持。VS3D 在视觉保真和编辑语义上都优于对比方法;CD 略低于 VoxHammer,但 VS3D 不需要用户提供 3D mask。

定性结果见 Figure 2。论文展示了 add、remove、replacement、compound edit 等多类编辑,VS3D 在保持非编辑区域的同时能生成较干净的局部变化。

消融实验见 Figure 3

  • FlowEdit alone:非编辑区域出现明显 occupancy drift;
  • +RASI:结构漂移明显减少,但编辑强度不足;
  • +RASI+PMG:编辑区域更清晰;
  • +RASI+PMG+TAR:geometry/material 细节保留最好。

运行时间见原文 Table 2。VS3D 在单张 NVIDIA RTX 4090 上约 57 秒/asset,慢于 Instant3dit,但显著快于 VoxHammer、Nano3D 和 Edit360。

5. 总结 (Conclusion)

VS3D 的主要价值在于把 3D 局部编辑问题重新表述为 velocity-space control:不要依赖外部 mask 或后处理去修补生成结果,而是在 rectified-flow sampler 内部同时处理 identity preservation 和 edit amplification。

它的三个模块分工清晰:

  • RASI:关闭非编辑区域的 velocity leakage;
  • PMG:放大稳定的编辑信号;
  • TAR:在 geometry/material 阶段恢复 source 细节。

这使 VS3D 成为一个免训练、免反演、免 3D mask 的 3D asset editing 方法,适合需要快速局部编辑和资产身份保持的生成式 3D 工作流。