PAR3D: A Unified 3D-MLLM with Part-Aware Representation for Scene Understanding

作者Shaohui Dai, Yansong Qu, You Shen, Shengchuan Zhang, Liujuan Cao

机构Xiamen University，教育部多媒体可信感知与高效计算重点实验室

项目页面https://atrovast.github.io/PAR3D/

现有 3D-MLLM 停留在 object 层级，无法理解冰箱把手、椅背等功能性 part；PAR3D 通过构建场景级 part 数据集、part-aware 对比表征学习和层级 segmentation query，把 3D-MLLM 的理解粒度从 object 下推到 part。

PAR3D teaser — PAR3D 与 ScenePart 数据集概览。左侧展示 ScenePart 的 object-part 标注；右侧展示 PAR3D 在问答、分割、推理任务上超越现有 3D-MLLM 的 part-aware 能力。

研究动机

问题难在哪：具身智能需要抓住杯子的把手、拉开抽屉、坐到椅子的坐面上，这些交互的目标不是一个整体 object，而是 object 内部的功能性组件（part）。现有 3D-MLLM 可以定位冰箱，却无法定位冰箱的把手；被问"这个木柜有几个抽屉"时，往往回答错误或分割出整个柜子。
现有方法的问题：(1) 数据缺失：ScanNet、3RScan 等室内场景数据集没有 part-level 标注；PartNet 等 part 数据集只有单个孤立物体，缺少场景上下文。(2) 表征不足：主流 3D backbone 为 object-level 感知而设计，decoder 在下游任务微调后容易偏离 part 细粒度特征。(3) Grounding 粒度冲突：现有方法（如 3D-LLaVA、Reason3D）只用单一 [SEG] token 表示所有粒度的 grounding 目标，导致 part grounding 能力弱。
核心 insight：Part 不是"更小的 object"，它的语义依赖宿主 object 及场景上下文。因此应在数据、表征、grounding 接口三个层面同步设计，而不是简单扩展 object-level 框架。

核心方法

PAR3D architecture — PAR3D 整体框架。Stage 1 通过 instance segmentation + part-aware 对比学习 + representation-preserving 正则化预训练视觉 backbone；Stage 2 冻结 backbone 后对 LLM 做 instruction tuning，引入层级 grounding token [OBJ] 和 [PART]。

1. ScenePart Dataset：场景级 part 标注数据

ScenePart 是本文构建的合成室内场景数据集，核心目的是填补"场景级 part 监督"的空白。构建流程：从 3D-CoMPaT 取出带 part mask 的有纹理 3D 物体，用 Qwen3-VL-8B 估计物体尺度并生成文字描述；用 MiDiffusion 在 3D-FRONT 平面图上生成室内家具布局；将 3D-CoMPaT 资产实例化到布局中，采样成点云场景，继承 part mask；结合模板规则和 LLM 精炼生成多任务语言标注。规模：800 个场景，21K object mask，44K part mask，273K 语言标注。

ScenePart data construction — ScenePart 数据构建流程。从 3D-CoMPaT 取 part-annotated 有纹理 3D 资产，用 MiDiffusion 生成室内布局，合成带 object 和 part mask 的点云场景，最后用模板规则和 LLM 精炼生成语言标注。

2. Part-Aware 3D Representation Learning：细粒度表征适配

PAR3D 用预训练的 Utonia encoder（Point Transformer 系列）替换原有 3D encoder，提供更强的几何和语义先验，同时引入两个正则化目标：

Part-aware contrastive learning（L_pcl）：在 ScenePart 场景的 decoder features F_d 上做 superpoint 级 InfoNCE 对比学习。对 anchor feature f_i^d，正样本为同 part mask 内的其他 superpoint，负样本为不同 part mask 的 superpoint。直观理解：同一个 part 内的 superpoint 特征应该聚集，不同 part 的特征应该分开。

Representation-preserving self-distillation（L_rep）：用冻结 encoder features F_e 作为 semantic anchor，约束 decoder features F_d 不要过度偏离。直观理解：让 decoder 适配 part-level 任务的同时，保留 pretrained encoder 的通用 3D 语义，防止 task-specific drift。

3. Hierarchical Segmentation Query Generation：层级 Grounding 接口

PAR3D 引入两种粒度感知 grounding token：

Object-level：LLM 生成 [OBJ]，对应 object mask 预测。
Part-level：LLM 先生成 [OBJ] 再生成 [PART]，两者保持语言上下文耦合但 query 独立。

两个 token 的 hidden state 分别经 MLP 投影为 segmentation query，再经同一 query decoder 以 encoder features 为 key-value 解码出各自 mask。Part-level 指令同时监督 host object mask 和 target part mask，强迫模型在 grounding 时保持 object-part 层级关系。直观理解：先找到冰箱（[OBJ]），再在冰箱范围内找把手（[PART]）——层级结构写死在 token 序列里。

4. 两阶段训练策略

Stage 1（Part-aware 3D Backbone Pretraining）：冻结 Utonia encoder，训练 query decoder。在 ScanNet200 上做 3D instance segmentation，在 ScenePart 上应用 L_pcl，全场景应用 L_rep。Stage 2（Instruction Tuning）：冻结视觉 backbone，用 LoRA 微调 LLaVA-1.5-7B + projector + segmentation MLP。训练数据：ScanRefer、Nr3D、Multi3DRefer、ScanQA、SQA3D、Scan2Cap + ScenePart-200K。硬件：4 NVIDIA A100 40GB。

主要实验结果

Object-Level 基准：PAR3D 在 ScanRefer（val）mIoU 达 49.9%，Multi3DRefer（val）mIoU 达 53.4%，超过 3D-LLaVA（43.3% / 42.7%）分别 +6.6 和 +10.7 个点，为 3D-MLLM 中新 SOTA。语言生成任务（ScanQA CIDEr 95.7、SQA3D EM 54.6、Scan2Cap [email protected] 81.4）也保持有竞争力的表现。
Part-Level 基准：ScenePart：3D-LLaVA All mIoU 11.1%，3D-LLaVA + ScenePart 51.8%，PAR3D 60.7%。PAR3D QA CIDEr 191.1 vs 3D-LLaVA 的 39.6。ScenePart 数据监督本身就带来巨大提升，PAR3D 的模型设计在此基础上进一步提升，证明表征学习和层级 grounding 的额外价值。
消融实验：每个组件都对 part-level 和 object-level 性能有贡献，且无一损害 object-level 性能——说明 part-aware 设计与通用 3D 理解正交互补。从基线 11.1% 出发，加 ScenePart 数据 51.8%，加 Pretrained 3D Encoder 54.9%，加 Representation-Preserving Loss 58.7%，加 Part-Aware Contrastive Loss 59.4%，加 Hierarchical Segmentation Query 最终 60.7%。

PAR3D qualitative results — PAR3D 在真实 ScanNet 场景上的定性结果（蓝色 = object mask，红色 = part mask）。PAR3D 能正确分割床上的枕头（part），定位蓝色桶的把手（part），并正确数出有扶手的椅子数量（6 张）；3D-LLaVA 在这三个任务上均失败。

局限与展望

已知局限：ScenePart 完全为合成场景，与真实 3D 扫描（ScanNet 等）存在 domain gap；Part 类别受限于 3D-CoMPaT 数据集的 object 种类，无法覆盖所有 open-vocabulary part；当前框架尚不支持 articulation（关节运动）相关的 part reasoning，对具身操作的支持仍是开放问题。
研究趋势：PAR3D 代表 3D-MLLM 从 object-centric 向 part-centric 延伸的关键一步，与 PartNeXt（细粒度 part 数据集）、GAPart/GAPartNet（actionable part）等工作形成互补。未来方向包括：在真实场景采集 part-level 标注、结合 open-vocabulary part segmentation（SAMPart3D、PartField 等）扩展 part 词汇、以及连接到 affordance reasoning 和机器人抓取。