Contents

PAR3D: A Unified 3D-MLLM with Part-Aware Representation for Scene Understanding


作者Shaohui Dai, Yansong Qu, You Shen, Shengchuan Zhang, Liujuan Cao
机构Xiamen University,教育部多媒体可信感知与高效计算重点实验室
arXivhttps://arxiv.org/abs/2606.06485
项目页面https://atrovast.github.io/PAR3D/

现有 3D-MLLM 停留在 object 层级,无法理解冰箱把手、椅背等功能性 part;PAR3D 通过构建场景级 part 数据集、part-aware 对比表征学习和层级 segmentation query,把 3D-MLLM 的理解粒度从 object 下推到 part。

PAR3D teaser
PAR3D 与 ScenePart 数据集概览。左侧展示 ScenePart 的 object-part 标注;右侧展示 PAR3D 在问答、分割、推理任务上超越现有 3D-MLLM 的 part-aware 能力。

研究动机

核心方法

PAR3D architecture
PAR3D 整体框架。Stage 1 通过 instance segmentation + part-aware 对比学习 + representation-preserving 正则化预训练视觉 backbone;Stage 2 冻结 backbone 后对 LLM 做 instruction tuning,引入层级 grounding token [OBJ] 和 [PART]。

1. ScenePart Dataset:场景级 part 标注数据

ScenePart 是本文构建的合成室内场景数据集,核心目的是填补"场景级 part 监督"的空白。构建流程:从 3D-CoMPaT 取出带 part mask 的有纹理 3D 物体,用 Qwen3-VL-8B 估计物体尺度并生成文字描述;用 MiDiffusion 在 3D-FRONT 平面图上生成室内家具布局;将 3D-CoMPaT 资产实例化到布局中,采样成点云场景,继承 part mask;结合模板规则和 LLM 精炼生成多任务语言标注。规模:800 个场景,21K object mask,44K part mask,273K 语言标注。

ScenePart data construction
ScenePart 数据构建流程。从 3D-CoMPaT 取 part-annotated 有纹理 3D 资产,用 MiDiffusion 生成室内布局,合成带 object 和 part mask 的点云场景,最后用模板规则和 LLM 精炼生成语言标注。

2. Part-Aware 3D Representation Learning:细粒度表征适配

PAR3D 用预训练的 Utonia encoder(Point Transformer 系列)替换原有 3D encoder,提供更强的几何和语义先验,同时引入两个正则化目标:

Part-aware contrastive learning(L_pcl):在 ScenePart 场景的 decoder features F_d 上做 superpoint 级 InfoNCE 对比学习。对 anchor feature f_i^d,正样本为同 part mask 内的其他 superpoint,负样本为不同 part mask 的 superpoint。直观理解:同一个 part 内的 superpoint 特征应该聚集,不同 part 的特征应该分开。

Representation-preserving self-distillation(L_rep):用冻结 encoder features F_e 作为 semantic anchor,约束 decoder features F_d 不要过度偏离。直观理解:让 decoder 适配 part-level 任务的同时,保留 pretrained encoder 的通用 3D 语义,防止 task-specific drift。

3. Hierarchical Segmentation Query Generation:层级 Grounding 接口

PAR3D 引入两种粒度感知 grounding token:

两个 token 的 hidden state 分别经 MLP 投影为 segmentation query,再经同一 query decoder 以 encoder features 为 key-value 解码出各自 mask。Part-level 指令同时监督 host object mask 和 target part mask,强迫模型在 grounding 时保持 object-part 层级关系。直观理解:先找到冰箱([OBJ]),再在冰箱范围内找把手([PART])——层级结构写死在 token 序列里。

4. 两阶段训练策略

Stage 1(Part-aware 3D Backbone Pretraining):冻结 Utonia encoder,训练 query decoder。在 ScanNet200 上做 3D instance segmentation,在 ScenePart 上应用 L_pcl,全场景应用 L_rep。Stage 2(Instruction Tuning):冻结视觉 backbone,用 LoRA 微调 LLaVA-1.5-7B + projector + segmentation MLP。训练数据:ScanRefer、Nr3D、Multi3DRefer、ScanQA、SQA3D、Scan2Cap + ScenePart-200K。硬件:4 NVIDIA A100 40GB。

主要实验结果

PAR3D qualitative results
PAR3D 在真实 ScanNet 场景上的定性结果(蓝色 = object mask,红色 = part mask)。PAR3D 能正确分割床上的枕头(part),定位蓝色桶的把手(part),并正确数出有扶手的椅子数量(6 张);3D-LLaVA 在这三个任务上均失败。

局限与展望