OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion

作者Yunhan Yang, Yufan Zhou, Yuan-Chen Guo, Zi-Xin Zou, Yukun Huang, Ying-Tian Liu, Hao Xu, Ding Liang, Yan-Pei Cao, Xihui Liu

机构The University of Hong Kong, Harbin Institute of Technology, VAST, Zhejiang University

arXivhttps://arxiv.org/abs/2507.06165

项目页面https://omnipart.github.io/

现在大部分 3D 生成模型只能生成一个整体模型，零件粘在一起拆不开；OmniPart 先生成每个零件的位置框，再分别生成每个零件的样子，最后把零件拼成一个完整物体，这样零件既能单独编辑，拼起来又不会有缝。

OmniPart teaser — OmniPart 输入一张图片和 mask，先规划出零件的 3D 位置，再生成每个零件的具体模型，最后拼成完整物体。

研究动机

问题难在哪：做游戏、VR、动画的人都希望 3D 模型是分零件的，但现在的生成模型大多只会吐出一个粘在一起的整体模型，没法拆。想做出能拆的零件，要同时做到两件事：零件之间互相独立（改一个不影响别的），但拼起来又要严丝合缝（不能有缝、不能位置不对）。这两件事天然矛盾。
现有方法的问题：先把图片用 2D 模型分割成几块、再各自重建成 3D（如 Part123、PartGen）——从多个角度拍的照片对不齐，重建出来的零件形状会破碎，看不到的背面/内部就直接没了。直接训练一个模型生成 3D 零件（如 PASTA）——很难精确控制"该拆成几块、怎么拆"，而且需要大量按零件标注好的 3D 数据，这种数据很稀少。
核心 insight：把这件事拆成两步：先决定有哪些零件、每个零件大概占据 3D 空间里的哪个位置，再单独生成每个零件具体长什么样。两步分开做，比想一步到位同时搞定位置和细节简单得多。

核心方法

1. 整体流程：先画框，再填内容

OmniPart 分两个阶段。第一阶段叫结构规划：输入一张图片（可以配合 2D mask），模型用自回归的方式，一个一个地输出每个零件的 3D 边界框（标出这个零件大概占据哪块空间）。第二阶段叫零件合成：把这些边界框喂给一个改造过的 3D 生成模型，让它在每个框里生成对应零件的具体几何和纹理，所有零件一起生成，保证拼起来是整齐的。

OmniPart overview — OmniPart 整体流程。第一步用自回归模型预测零件的边界框，第二步在这些框的基础上微调一个 3D 生成模型，把每个零件具体生成出来。

2. 基础：TRELLIS 的体素表示

OmniPart 是在已有模型 TRELLIS 的基础上改的。TRELLIS 把一个 3D 物体切成很多小方块（体素），只记录物体表面经过的那些方块的位置，每个方块再配一个向量记录这里的形状和颜色细节。OmniPart 第一阶段生成的边界框，就是用来告诉 TRELLIS 的体素"这块属于哪个零件"。

3. 边界框序列化：自回归生成

每个边界框就是 6 个数字：最小角的 x、y、z 和最大角的 x、y、z。OmniPart 把这 6 个数字按顺序排成一串，多个边界框按它们在空间里从下到上、从前到后的顺序排好，拼成一条长序列。这样"生成一组零件的位置"就变成了和写句子一样的"一个词一个词往后猜"的任务，用的是常见的自回归 Transformer（OPT 结构）。

4. 用 2D mask 告诉模型该拆成几块

同一个物体该拆成几个零件，往往没有标准答案。OmniPart 让用户（或者 SAM 等分割模型）画一张 2D mask，每种颜色代表一个零件，喂给模型当作提示。图片先过 DINOv2 提取特征，mask 上每个像素对应一个"零件编号"，查一个小表得到这个编号的向量，加到对应位置的图片特征上。这里不要求 mask 和最终的 3D 框一一对应——mask 只是个"建议怎么拆"的提示。

5. Part Coverage Loss：别让框画小了

如果只用普通的"猜下一个数字"的损失来训练，模型会倾向于把边界框画得偏小。OmniPart 加了一个 Part Coverage Loss：如果预测的框比真实框小，就罚；如果预测的框比真实框大，不罚。这样逼着模型宁可把框画大一点，也要保证把整个零件都包进去。

6. 零件一起生成：Part Position Embedding

确定了每个零件大概的位置框后，OmniPart 微调 TRELLIS 的第二阶段模型，让它同时给整个物体和每个零件的体素去噪。为了让模型在同一串 token 里分清楚哪些属于哪个零件，每个 token 会带一个编号，叫 Part Position Embedding（PPE）：整体物体的 token 统一编号 0，第一个零件编号 1，第二个零件编号 2，以此类推。

Part synthesis stage — 零件合成阶段示意图。整体和每个零件的体素一起送进 Transformer 去噪，token 上带位置编码和 PPE 编号，模型还会给每个体素打一个"有效性"分数，用来丢掉不该要的体素（图里带条纹的方块）。

7. Voxel Discarding：把不属于这个零件的方块扔掉

因为边界框是个粗略的长方体，相邻两个零件的框难免会重叠，框里混进了一些其实属于隔壁零件的体素。OmniPart 给每个体素多算一个"有效性"数值：训练时，真正属于这个零件的体素目标值设成正数（+α），混进来的目标值设成负数（-α）。生成的时候，把这个数值过一下 sigmoid 函数变成 0 到 1 之间的分数，分数超过 0.5 才保留，否则就丢掉。

8. 训练数据：18 万个粗标注，挑出 1.5 万个好的

作者收集了 18 万个带零件标签的 3D 物体，从里面挑出标注质量最好的 1.5 万个。边界框生成模型直接用全部 18 万个数据从零训练。零件合成模型是在 TRELLIS 已经训练好的基础上微调，只用了那 1.5 万个高质量数据。

Dataset part count distribution — 训练数据里，不同物体的零件数量分布。大多数物体零件数在 5 个左右，最多到 50 个。

主要实验结果

边界框生成质量：OmniPart 的 Voxel Recall 是 85.96%，Voxel IoU 是 61.02%，都明显高于 PartField 的 79.12% 和 39.02%。去掉 2D mask 的版本就更差了（Voxel Recall 66.98%，Voxel IoU 31.44%，BBox IoU 25.90%），说明没有 mask 引导模型确实不知道该怎么拆。
生成质量：OmniPart 两边都是最好的：零件这边 CD 是 0.18，F1 分别是 0.74 和 0.59；整体这边 CD 是 0.07，F1 分别是 0.93 和 0.80。OmniPart 整体的分数甚至比 TRELLIS 直接生成整体还要好，因为它能把每个零件被遮住的部分也补全。
生成速度：从一张图片到生成出所有零件的 3D 模型，Part123 要约 15 分钟，PartGen 要约 5 分钟，OmniPart 只要约 0.75 分钟。
下游应用：用户画个 2D mask 就能控制生成出来的零件怎么拆分；调整 mask 的精细程度，同一个物体能生成粗粒度或细粒度的零件划分；单独改某个零件的材质；对模型做重新网格化等几何处理时，零件边界不会出现接缝伪影。

Qualitative comparison — 几种方法生成结果的对比图。OmniPart 生成的零件有纹理、形状准，拼起来也整齐；其他方法或者没纹理，或者零件形状破碎、边界不干净。

Applications — OmniPart 的几个应用：(a) 用 mask 控制怎么拆零件，(b) 调整 mask 精细度控制零件粒度，(c) 单独改某个零件的材质，(d) 几何处理时零件边界更干净。

局限与展望

已知局限：现在的边界框是"轴对齐"的，只能是正方向摆放的长方体，不能斜着摆。如果零件本身是斜的或者形状不规则，框里就会多包进一些不该有的体素，传给下一步处理。
研究趋势：3D 生成这个领域正在从"生成的东西像不像"转向"生成的东西能不能编辑、能不能拆开复用"。OmniPart 没有从零训练一个全新模型，而是借用已经训练好的整体生成模型，只是加了不多的零件标注数据去微调，这是在数据稀缺情况下扩展能力的一种省成本的思路。