PAR3D: A Unified 3D-MLLM with Part-Aware Representation for Scene Understanding
作者Shaohui Dai, Yansong Qu, You Shen, Shengchuan Zhang, Liujuan Cao
机构Xiamen University,教育部多媒体可信感知与高效计算重点实验室
现有 3D-MLLM 停留在 object 层级,无法理解冰箱把手、椅背等功能性 part;PAR3D 通过构建场景级 part 数据集、part-aware 对比表征学习和层级 segmentation query,把 3D-MLLM 的理解粒度从 object 下推到 part。
PAR3D 与 ScenePart 数据集概览。左侧展示 ScenePart 的 object-part 标注;右侧展示 PAR3D 在问答、分割、推理任务上超越现有 3D-MLLM 的 part-aware 能力。
研究动机
- 问题难在哪:具身智能需要抓住杯子的把手、拉开抽屉、坐到椅子的坐面上,这些交互的目标不是一个整体 object,而是 object 内部的功能性组件(part)。现有 3D-MLLM 可以定位冰箱,却无法定位冰箱的把手;被问"这个木柜有几个抽屉"时,往往回答错误或分割出整个柜子。
- 现有方法的问题:(1) 数据缺失:ScanNet、3RScan 等室内场景数据集没有 part-level 标注;PartNet 等 part 数据集只有单个孤立物体,缺少场景上下文。(2) 表征不足:主流 3D backbone 为 object-level 感知而设计,decoder 在下游任务微调后容易偏离 part 细粒度特征。(3) Grounding 粒度冲突:现有方法(如 3D-LLaVA、Reason3D)只用单一 [SEG] token 表示所有粒度的 grounding 目标,导致 part grounding 能力弱。
- 核心 insight:Part 不是"更小的 object",它的语义依赖宿主 object 及场景上下文。因此应在数据、表征、grounding 接口三个层面同步设计,而不是简单扩展 object-level 框架。
核心方法
PAR3D 整体框架。Stage 1 通过 instance segmentation + part-aware 对比学习 + representation-preserving 正则化预训练视觉 backbone;Stage 2 冻结 backbone 后对 LLM 做 instruction tuning,引入层级 grounding token [OBJ] 和 [PART]。
1. ScenePart Dataset:场景级 part 标注数据
ScenePart 是本文构建的合成室内场景数据集,核心目的是填补"场景级 part 监督"的空白。构建流程:从 3D-CoMPaT 取出带 part mask 的有纹理 3D 物体,用 Qwen3-VL-8B 估计物体尺度并生成文字描述;用 MiDiffusion 在 3D-FRONT 平面图上生成室内家具布局;将 3D-CoMPaT 资产实例化到布局中,采样成点云场景,继承 part mask;结合模板规则和 LLM 精炼生成多任务语言标注。规模:800 个场景,21K object mask,44K part mask,273K 语言标注。
ScenePart 数据构建流程。从 3D-CoMPaT 取 part-annotated 有纹理 3D 资产,用 MiDiffusion 生成室内布局,合成带 object 和 part mask 的点云场景,最后用模板规则和 LLM 精炼生成语言标注。
2. Part-Aware 3D Representation Learning:细粒度表征适配
PAR3D 用预训练的 Utonia encoder(Point Transformer 系列)替换原有 3D encoder,提供更强的几何和语义先验,同时引入两个正则化目标:
Part-aware contrastive learning(L_pcl):在 ScenePart 场景的 decoder features F_d 上做 superpoint 级 InfoNCE 对比学习。对 anchor feature f_i^d,正样本为同 part mask 内的其他 superpoint,负样本为不同 part mask 的 superpoint。直观理解:同一个 part 内的 superpoint 特征应该聚集,不同 part 的特征应该分开。
Representation-preserving self-distillation(L_rep):用冻结 encoder features F_e 作为 semantic anchor,约束 decoder features F_d 不要过度偏离。直观理解:让 decoder 适配 part-level 任务的同时,保留 pretrained encoder 的通用 3D 语义,防止 task-specific drift。
3. Hierarchical Segmentation Query Generation:层级 Grounding 接口
PAR3D 引入两种粒度感知 grounding token:
- Object-level:LLM 生成 [OBJ],对应 object mask 预测。
- Part-level:LLM 先生成 [OBJ] 再生成 [PART],两者保持语言上下文耦合但 query 独立。
两个 token 的 hidden state 分别经 MLP 投影为 segmentation query,再经同一 query decoder 以 encoder features 为 key-value 解码出各自 mask。Part-level 指令同时监督 host object mask 和 target part mask,强迫模型在 grounding 时保持 object-part 层级关系。直观理解:先找到冰箱([OBJ]),再在冰箱范围内找把手([PART])——层级结构写死在 token 序列里。
4. 两阶段训练策略
Stage 1(Part-aware 3D Backbone Pretraining):冻结 Utonia encoder,训练 query decoder。在 ScanNet200 上做 3D instance segmentation,在 ScenePart 上应用 L_pcl,全场景应用 L_rep。Stage 2(Instruction Tuning):冻结视觉 backbone,用 LoRA 微调 LLaVA-1.5-7B + projector + segmentation MLP。训练数据:ScanRefer、Nr3D、Multi3DRefer、ScanQA、SQA3D、Scan2Cap + ScenePart-200K。硬件:4 NVIDIA A100 40GB。
主要实验结果
- Object-Level 基准:PAR3D 在 ScanRefer(val)mIoU 达 49.9%,Multi3DRefer(val)mIoU 达 53.4%,超过 3D-LLaVA(43.3% / 42.7%)分别 +6.6 和 +10.7 个点,为 3D-MLLM 中新 SOTA。语言生成任务(ScanQA CIDEr 95.7、SQA3D EM 54.6、Scan2Cap [email protected] 81.4)也保持有竞争力的表现。
- Part-Level 基准:ScenePart:3D-LLaVA All mIoU 11.1%,3D-LLaVA + ScenePart 51.8%,PAR3D 60.7%。PAR3D QA CIDEr 191.1 vs 3D-LLaVA 的 39.6。ScenePart 数据监督本身就带来巨大提升,PAR3D 的模型设计在此基础上进一步提升,证明表征学习和层级 grounding 的额外价值。
- 消融实验:每个组件都对 part-level 和 object-level 性能有贡献,且无一损害 object-level 性能——说明 part-aware 设计与通用 3D 理解正交互补。从基线 11.1% 出发,加 ScenePart 数据 51.8%,加 Pretrained 3D Encoder 54.9%,加 Representation-Preserving Loss 58.7%,加 Part-Aware Contrastive Loss 59.4%,加 Hierarchical Segmentation Query 最终 60.7%。
PAR3D 在真实 ScanNet 场景上的定性结果(蓝色 = object mask,红色 = part mask)。PAR3D 能正确分割床上的枕头(part),定位蓝色桶的把手(part),并正确数出有扶手的椅子数量(6 张);3D-LLaVA 在这三个任务上均失败。
局限与展望
- 已知局限:ScenePart 完全为合成场景,与真实 3D 扫描(ScanNet 等)存在 domain gap;Part 类别受限于 3D-CoMPaT 数据集的 object 种类,无法覆盖所有 open-vocabulary part;当前框架尚不支持 articulation(关节运动)相关的 part reasoning,对具身操作的支持仍是开放问题。
- 研究趋势:PAR3D 代表 3D-MLLM 从 object-centric 向 part-centric 延伸的关键一步,与 PartNeXt(细粒度 part 数据集)、GAPart/GAPartNet(actionable part)等工作形成互补。未来方向包括:在真实场景采集 part-level 标注、结合 open-vocabulary part segmentation(SAMPart3D、PartField 等)扩展 part 词汇、以及连接到 affordance reasoning 和机器人抓取。