LiteReality: Graphics-Ready 3D Scene Reconstruction from RGB-D Scans

作者Zhening Huang, Xiaoyang Wu, Fangcheng Zhong, Hengshuang Zhao, Matthias Nießner, Joan Lasenby

机构University of Cambridge, The University of Hong Kong, Technical University of Munich

arXivhttps://arxiv.org/abs/2507.02861

项目页面https://litereality.github.io

将真实室内 RGB-D 扫描自动转换为紧凑、可交互、带 PBR 材质的 graphics-ready 3D 场景，核心思路是用分层 CAD 检索替代直接重建，再用轻量 albedo 优化补偿材质。

LiteReality pipeline — LiteReality 完整流水线，从 RGB-D 输入经过四个阶段输出 graphics-ready 场景。

研究动机

问题难在哪：真实感 3D 重建（NeRF、Gaussian Splatting）产出的是"3D 照片"——有视觉外观，无结构语义，无法直接送入游戏引擎、仿真器或 AR/VR。真正实用的数字孪生需要四件事：对象独立存在（object-centric）、可关节运动（articulation）、PBR 材质（在不同光照下保持真实感）、刚体物理属性。
现有方法的问题：仿真环境（AI2-THOR、Habitat）靠手工场景，缺乏真实扫描处理能力；CAD 检索对齐方法（Scan2CAD 系列）只关注几何对齐精度，忽略材质和整体系统集成；材质估计方法（PSDR-Room、PhotoScene）在真实杂乱扫描下因遮挡、光照差、几何错位而效果退化。
核心 insight：不必重建高保真几何——从真实扫描检索已有艺术家制作的 3D 资产，再把真实观察到的材质"画"上去，最后在物理引擎里拼装，就能得到可用的 graphics-ready 场景。

核心方法

1. 场景感知与解析：从噪声检测到结构化 Scene Graph

Scene Graph 是整个流程的骨架。输入 RGB-D 扫描得到 room layout 和 oriented bounding box（O-Bbox），这些原始检测结果常有碰撞、漂浮、墙体不连续等噪声。LiteReality 将场景建模为一个图：节点代表墙、窗、门和检测到的物体，每个节点携带空间属性和外观属性；边定义四种空间关系——attached to walls、on top of、table-chair pair、connecting to。基于 Scene Graph，使用约束碰撞解算（Constraint-Based Collision Resolution）迭代施加虚拟力分离相交对，直到所有碰撞解除。

2. 对象重建：无训练的分层 CAD 检索

分层检索（Hierarchical Retrieval）是 LiteReality 实现 SOTA 检索相似性的关键，全程无需额外训练：

语义过滤：用子类别（如 two-seat sofa、bar chair）缩小候选范围
图像特征过滤：用 DINOv2 提取物体裁剪图特征，与数据库中预渲染视图比较，选 top-10 视觉相似模型
位姿感知渲染比较：将 top-10 候选放置到场景中对应位置，从相同相机角度渲染，再用 DINOv2 对比，选 top-4
上下文选择：用语言模型（GPT-4）评估风格、比例、视觉一致性，从 top-4 中选最终结果

LiteReality Database 包含来自 3D-Future、AI2-THOR 和 Sketchfab 的 5,283 个资产，覆盖 17 个语义类别。

3. Material Painting：鲁棒 PBR 材质估计

传统材质估计方法在真实扫描中失效的三个原因：几何错位、光照差、逐物体可微渲染计算代价高。LiteReality 用三步紧凑流程绕开这些问题：

Auto-crop Mapping：用 SAM 对参考图像做分割，取每个 mask 内最大矩形区域，用 Grounding DINO 过滤无效片段，再用 MLLM（GPT-4V）做语义映射，将 3D 材质分组与 2D image patch 对应。

语义+视觉引导的材质检索：受 Make-It-Real 启发，先用多步提示让 LLM 预测材质类别，选 top-10 候选；再用 CLIP 提取多视角 patch 的 embedding 与材质库比较；最后 GPT-4 评估 albedo map 与参考 patch 的视觉兼容性。

Albedo-Only Optimization：只在 CIE LAB 色彩空间里做全局颜色偏移，保留高频纹理细节，只修正色调和亮度，轻量且鲁棒。

Material painting pipeline — Material Painting 阶段 pipeline：给定 3D 模型，通过 auto-crop mapping、语义视觉引导的材质检索和 albedo 优化，恢复高质量 PBR 材质。

4. 程序化重建：在 Blender 中组装场景

按顺序：先建墙体，再装配窗户和门，再放置检索到的物体，最后赋予物理属性。对每个物体，用 MLLM 从裁剪图片预测质量（mass），设置刚体动力学，以 mesh 几何作为碰撞边界。整个过程在 Blender 中以脚本形式自动执行。

5. 最关键的一句话

LiteReality 的核心价值在于"先检索，后粉刷"——用已有高质量艺术资产的检索替代几何重建，用轻量的颜色偏移替代昂贵的全 PBR 优化，得到可直接进入 graphics pipeline 的可交互场景。

主要实验结果

检索相似性（Scan2CAD benchmark）：以 Chamfer Distance 度量，LiteReality 在 avg/CAD 和 avg/class 两个指标上均超过所有 baseline。avg/CAD 从 0.1042 降至 0.0986，各类别（chair、cabinet、sofa、table 等）全面改善，且在比 Scan2CAD 大得多的检索空间（全 ShapeNet：每类 300-3000 模型）上达到此结果。
对象级 PBR 材质估计：在 5 个真实 iPhone 扫描场景（111 个物体）上，LiteReality 在 RMSE(↓)、SSIM(↑)、LPIPS(↓) 三个指标上全面领先，在感知质量（SSIM=0.4353，LPIPS=0.5854）上明显优于 Make-It-Real+AO。
全场景 graphics-ready 重建：与 Phone2Proc、Digital Cousin 及其材质增强变体相比，LiteReality 在 RMSE(0.2664 vs 0.3046-0.3653)、SSIM(0.5818 vs 0.5425-0.5531)、LPIPS(0.6522 vs 0.6648-0.7364)上显著优胜。
消融实验：去掉 Albedo-Only Optimization 时 SSIM 从 0.4203 降至 0.3981，LPIPS 从 0.5899 升至 0.6111，说明这一轻量后处理步骤对感知质量有实质贡献。去掉视觉检索（只用语义检索）时 RMSE=0.2835，远差于完整 pipeline。
运行时间：单 RTX 3090，小场景（10-15 个物体）约 20 分钟，大场景（40-50 个物体）约 1 小时。Material Painting 是主要瓶颈（15-50 分钟）。

LiteReality results on diverse scenes — LiteReality 在多样真实场景下的输出，带完整 PBR 材质。

局限与展望

已知局限：当前系统的质量上限由上游感知（RoomPlan 的物体检测和布局估计）决定，感知错误会向下传播。检索仍存在偶发失配，约束碰撞解算在密集场景下可能出现穿插。目前只检索"大件家具"，忽略小物件，场景细节不足。
研究趋势：LiteReality 代表了一种"系统集成"方向——与其追求单模块的极致精度，不如将多个成熟工具（语义检测、DINOv2 特征、CLIP、GPT-4V、SAM、Blender 物理引擎）以正确的方式串联，形成能处理真实世界混乱扫描的完整 pipeline。这与 NeRF/3DGS 的"端到端可微渲染"路线形成鲜明对比，在 interactivity 和 graphics 兼容性上有明显优势。未来方向：更好的光照估计（full SVBRDF recovery）、多房间扩展、实时化。