PartNeXt: A Next-Generation Dataset for Fine-Grained and Hierarchical 3D Part Understanding

作者Penghao Wang, Yiyang He, Xin Lv, Yukai Zhou, Lan Xu, Jingyi Yu, Jiayuan Gu

机构ShanghaiTech University

会议NeurIPS 2025 Datasets and Benchmarks Track

arXivhttps://arxiv.org/abs/2510.20155

项目页面https://authoritywang.github.io/partnext

PartNeXt 用一套面向非专家的网页标注系统，直接在带纹理的原始 mesh 上做细粒度、层级化的 3D 部件标注，从而摆脱了 PartNet 时代"重新网格化导致掉纹理、标注门槛高"的两大瓶颈，产出了一个规模更大、品类更广、纹理完整的新一代 3D 部件数据集。

PartNeXt teaser — PartNeXt 面向细粒度、层级化的 3D 部件理解所构建的下一代数据集概览。

研究动机

问题难在哪：理解一个物体的"部件构成"是计算机视觉、图形学和机器人学的基础能力——从语义/实例分割到生成式建模、机器人操作，几乎都依赖于把物体拆解成有意义的部件这一中间表示。在 3D 上做部件级标注比 2D 多粒度掩码标注难得多：3D 物体常含复杂内部结构，如何设计直觉化的标注界面、如何设计任务流程激励标注者产出细粒度且一致的结果、以及如何定义一套能跨品类泛化的层级化分类体系，都是开放问题。
现有方法的问题：现有最大的部件标注数据集 PartNet（2019）存在两个结构性缺陷。纹理缺失问题：PartNet 的标注流程需要先对 mesh 做重新网格化（remeshing），这一步经常导致纹理丢失、几何发生形变，使得颜色、材质等本应对标注和模型都很关键的视觉线索不可用。标注门槛问题：PartNet 的标注界面要求标注者具备 3D 建模专业知识，需要手工画曲线切割 mesh、检查横截面来识别内部结构，流程繁琐且对非专家不友好，严重限制了众包扩展的可能性。
核心 insight：让标注者直接在原始带纹理 mesh 上通过"选面"操作部件，而不是先把 mesh 切碎重建，并用一个双面板界面把这套操作变得直觉化；同时引入 CLIP 和 GPT-4o 等 AI 工具来自动化品类筛选与层级体系生成，从而把标注规模化、专家化的工作转交给少量训练有素的标注员加 AI 辅助来完成。

核心方法

1. 数据收集与预处理：从三大来源筛选高质量带纹理模型

PartNeXt 的模型来自 Objaverse、ABO（Amazon-Berkeley Objects）和 3D-FUTURE 三个公开数据集。ABO 和 3D-FUTURE 本身聚焦家具类 CAD 模型且自带可靠的品类标签，筛选相对直接；Objaverse 则品类跨度大、质量参差不齐，因此需要额外处理。论文先用元数据过滤去掉带动画、面数超过 13 万、被标记为扫描件或建筑物的模型，再用 CLIP 文本编码器计算约 100 个候选品类名称与 Cap3D 提供的物体描述之间的余弦相似度，取相似度最高的品类作为标签，并丢弃最高相似度低于 0.75 的物体，最终保留计数最多的 50 个品类。

2. 层级体系定义：用 GPT-4o 自动生成、专家精修的部件树

论文形式化出五条设计准则：功能感知（顶层部件应是最大的、有独立功能意义的不可再分单元）、层级化（更深层级对应制造工艺上的子部件拆分）、穷举变体（同一部件若存在多种形态需在同一父节点下全部列出）、原子性（叶节点必须不可再分）、一致性（相同功能结构的部件在不同品类间命名一致）。具体生成流程：用 GPT-4o 根据上述准则为每个品类草拟层级，并提供该品类的渲染图给 GPT-4o 以补全容易被文字描述遗漏的部件变体，所有 AI 生成的层级最终都经人工专家审核修订。

3. 标注系统设计：双面板 + 直接在原始纹理 mesh 上选面

三个关键设计：层级标注流程：界面以可折叠树形结构呈现预定义的部件层级，默认只展开顶层节点，标注者逐层下钻标注叶节点；遇到层级树未覆盖的部件可临时创建"Other"节点。双面板界面：左侧面板展示未分割的原始 mesh，右侧实时展示已分割结果，标注者在左侧选中属于当前激活部件节点的面片，确认后该区域从左侧转移到右侧，每个部件都有与层级树节点同步的专属颜色。多粒度选面工具：论文放弃了 PartNet 依赖的手工网格切割，转而提供三种可以自由组合的选面工具——基于连通性的连通组件选择、从当前视角投影的边界框选择、以及逐面精修的单面选择。整套系统直接操作原始带纹理 mesh 的面片，彻底不需要重新网格化，从而完整保留了纹理信息。

Annotation interface — 标注界面示意。双面板布局让标注者先标注外部部件（如右侧已分割面板中的"门"），再标注内部部件（如左侧未分割面板中可见的"托盘"），有效缓解标注过程中的遮挡问题。

4. 质量控制：专业标注团队 + 多轮复核

论文雇佣了 35 名专业标注员，另设 5 名表现最好的标注员专门负责数据复核与质量把控，所有标注员在正式标注前都完成了两天的培训。平均每个 3D 模型的标注耗时约 5-6 分钟。每条标注至少经过一次复核，累计产生 5,211 次修正，单条标注最多被修正 8 次。

Dataset overview — PartNeXt 数据集中 50 个品类的细粒度部件标注示例可视化。

主要实验结果

PartNeXt 最终收录 23,519 个带纹理 mesh、覆盖 50 个品类，共标注出 350,187 个部件实例；层级深度最小为 4、最大为 10。

类无关 3D 部件实例分割基准：SAMesh 在细粒度分割上表现相对最强，但容易过度分割；PartField 有时无法分离本应区分开的相邻连通区域；SAMPart3D 在弱纹理区域难以保持分割的连续性，且粒度控制不稳定。10 个代表性品类上，三个方法的平均 mIoU 分别为 SAMPart3D 36.78%、SAMesh 51.57%、PartField 50.22%，印证了细粒度、层级化的 PartNeXt 对现有类无关分割方法构成了明显挑战。
部件级 3D 问答基准：在 PointLLM、ShapeLLM、3D-LLM 三个 3D 多模态模型上的测试显示，三者在计数和定位任务上的表现都相当有限：计数任务的 MAE 在提供品类先验时为 3D-LLM 2.16、PointLLM 1.87、ShapeLLM 1.72；分类准确率在 PointLLM 和 ShapeLLM 上分别为 0.22/0.25（有品类）；定位任务中只有 ShapeLLM 能输出合理的包围盒（IoU 0.33），3D-LLM 和 PointLLM 均无法给出合理的包围盒预测。
用 Point-SAM 验证数据质量：PartNet 训练得到 IoU@10 为 62.9，PartNeXt 训练大幅提升到 67.4，混合训练进一步提升到 68.7。在 PartNeXt 自身留出的零样本品类上，PartNet 训练仅获得 60.3，PartNeXt 训练大幅提升到 65.9，混合训练最佳为 67.6，验证了数据集更高的标注质量和品类多样性能够直接转化为模型泛化能力的提升。

Segmentation results comparison — PartNeXt 上的部件分割结果对比。PartField 难以分离连通区域，SAMesh 在细粒度分割上表现出色但存在过度分割，SAMPart3D 在弱纹理区域缺乏连续性。

QA benchmark examples — 部件级理解评测的代表性提示-回答对示例。(a) 部件计数；(b) 部件分类：要求模型说出点云床中被高亮为红色的部件名称；(c) 部件定位：要求模型用包围盒八个角点坐标定位书架的"搁板"。

PartNet vs PartNeXt comparison — PartNet 与 PartNeXt 标注结果对比。PartNet 因重新网格化获得更细粒度部件，导致 mesh 形变、纹理缺失，且需要在重新网格化后手工画切割线，使得部件边界往往不平滑。

局限与展望

已知局限：为保证标注质量，目前 PartNeXt 只收录了 23,519 个模型，作者正在通过引入 Objaverse-XL 的更多数据来扩大规模；每个品类都需要人工预先定义细粒度部件层级，这限制了数据集向完全开放词汇数据集的扩展能力；目前每个部件节点只有纯文本名称标注，缺少描述性文本或物理属性标注。
研究趋势：PartNeXt 延续的是"用更好的标注工具和半自动化流程（CLIP 筛选 + GPT-4o 辅助）去突破纯人工 3D 标注的规模瓶颈"这一趋势。论文用两个新基准（分割 + 问答）和一个训练实验，共同说明了当前无论是几何分割方法还是 3D-LLM，在面对真正细粒度、层级化的部件结构时都还有相当大的差距，PartNeXt 更像是为下一代部件级 3D 基础模型铺路的基础设施。