Contents

LiteReality: Graphics-Ready 3D Scene Reconstruction from RGB-D Scans


作者Zhening Huang, Xiaoyang Wu, Fangcheng Zhong, Hengshuang Zhao, Matthias Nießner, Joan Lasenby
机构University of Cambridge, The University of Hong Kong, Technical University of Munich
arXivhttps://arxiv.org/abs/2507.02861
项目页面https://litereality.github.io

将真实室内 RGB-D 扫描自动转换为紧凑、可交互、带 PBR 材质的 graphics-ready 3D 场景,核心思路是用分层 CAD 检索替代直接重建,再用轻量 albedo 优化补偿材质。

LiteReality pipeline
LiteReality 完整流水线,从 RGB-D 输入经过四个阶段输出 graphics-ready 场景。

研究动机

核心方法

1. 场景感知与解析:从噪声检测到结构化 Scene Graph

Scene Graph 是整个流程的骨架。输入 RGB-D 扫描得到 room layout 和 oriented bounding box(O-Bbox),这些原始检测结果常有碰撞、漂浮、墙体不连续等噪声。LiteReality 将场景建模为一个图:节点代表墙、窗、门和检测到的物体,每个节点携带空间属性和外观属性;边定义四种空间关系——attached to walls、on top of、table-chair pair、connecting to。基于 Scene Graph,使用约束碰撞解算(Constraint-Based Collision Resolution)迭代施加虚拟力分离相交对,直到所有碰撞解除。

2. 对象重建:无训练的分层 CAD 检索

分层检索(Hierarchical Retrieval)是 LiteReality 实现 SOTA 检索相似性的关键,全程无需额外训练:

LiteReality Database 包含来自 3D-Future、AI2-THOR 和 Sketchfab 的 5,283 个资产,覆盖 17 个语义类别。

3. Material Painting:鲁棒 PBR 材质估计

传统材质估计方法在真实扫描中失效的三个原因:几何错位、光照差、逐物体可微渲染计算代价高。LiteReality 用三步紧凑流程绕开这些问题:

Auto-crop Mapping:用 SAM 对参考图像做分割,取每个 mask 内最大矩形区域,用 Grounding DINO 过滤无效片段,再用 MLLM(GPT-4V)做语义映射,将 3D 材质分组与 2D image patch 对应。

语义+视觉引导的材质检索:受 Make-It-Real 启发,先用多步提示让 LLM 预测材质类别,选 top-10 候选;再用 CLIP 提取多视角 patch 的 embedding 与材质库比较;最后 GPT-4 评估 albedo map 与参考 patch 的视觉兼容性。

Albedo-Only Optimization:只在 CIE LAB 色彩空间里做全局颜色偏移,保留高频纹理细节,只修正色调和亮度,轻量且鲁棒。

Material painting pipeline
Material Painting 阶段 pipeline:给定 3D 模型,通过 auto-crop mapping、语义视觉引导的材质检索和 albedo 优化,恢复高质量 PBR 材质。

4. 程序化重建:在 Blender 中组装场景

按顺序:先建墙体,再装配窗户和门,再放置检索到的物体,最后赋予物理属性。对每个物体,用 MLLM 从裁剪图片预测质量(mass),设置刚体动力学,以 mesh 几何作为碰撞边界。整个过程在 Blender 中以脚本形式自动执行。

5. 最关键的一句话

LiteReality 的核心价值在于"先检索,后粉刷"——用已有高质量艺术资产的检索替代几何重建,用轻量的颜色偏移替代昂贵的全 PBR 优化,得到可直接进入 graphics pipeline 的可交互场景。

主要实验结果

LiteReality results on diverse scenes
LiteReality 在多样真实场景下的输出,带完整 PBR 材质。

局限与展望