OpenTopos: Towards Agentic 3D Procedural Generation Without Human Feedback

作者Yupeng Gao

状态未发表 research preview，2026 年 6 月

给定文本 prompt，orchestrator 驱动多个 coding agent 并行写 Blender Python 代码，framework 无头执行 Blender 渲染，VLM judge 评分，失败则自动生成 fix task 迭代，直到通过或达到上限——全程无人干预，最终产出带 articulation 的完整 3D 资产（GLB + URDF）。

研究动机

问题难在哪：现有 3D 生成方法（diffusion model 直接输出 mesh/NeRF）输出的 mesh 没有 part 分离，无法按需编辑某个组件；静态 mesh 不带关节定义，后处理 URDF 需要额外手工；生成质量不达标时需要人工判断并修改 prompt。
现有方法的问题：无结构（输出的 mesh 没有 part 分离，无法按需编辑某个组件）、无 articulation（静态 mesh 不带关节定义，后处理 URDF 需要额外手工）、需要人工反馈（生成质量不达标时人工判断并修改 prompt）。
核心 insight：不生成 mesh，改为生成能产生 mesh 的代码。这带来三个优势：代码有结构（可以修改任意 part）、可执行（Blender 渲染验证即时反馈）、可 debug（agent 看到报错可自行修复）。

核心方法

1. 整体控制流：DAG 任务图

整个生成过程是一个 DAG（有向无环图），每个节点是 AgentTask（调用 LLM）、ToolTask（调用确定性工具）或 SubgraphTask（运行时展开为子任务）之一。Runner 用 Kahn 算法做拓扑排序，用线程池并行执行无依赖节点（默认 4 workers）。所有任务的输出写到共享 workspace，agent 之间不直接通信，只通过文件系统协作。

2. design.json：多 agent 协调的唯一合约

01_agent_design 写出 design.json，这是整个 pipeline 的核心合约文件，所有 part agent 并行运行时只读自己对应的 entry，互不通信。schema 包含 robot_name、description、parts（每个 part 有 world_xyz、world_extents、color_rgba、geometry_strategy、texture.prompt、instances）和 joints（每个 joint 有 parent、child、type、origin_xyz、axis、limit）。设计原则：world_xyz 和 world_extents 是硬约束，part agent 写的代码产出的 object 的世界 bbox 必须在 5mm 容差内。

3. SubgraphTask 展开：运行时 DAG 动态扩展

当 02_subgraph_parts 的依赖完成后，runner 读取 design.json，调用 articulated_parts 展开策略，在运行时将 SubgraphTask 替换为对每个 part 的 agent 任务 + texture 工具任务，并在最后生成 verify/render/judge 批量任务。展开后的完整 plan 持久化到 plan.expanded.json。Resume 时优先读 expanded 版。

4. Part Agent 职责

每个 part agent 接到 goal：写 src/parts/<name>.py，实现 build_<name>() 函数，返回一个 Blender object，名字必须与 design.json 中 name 字段完全匹配。关键约定：build_<name>() 返回 object 的世界 bbox 中心必须在 world_xyz 的 5mm 内，extents 在 world_extents 的 5mm 内；只写几何代码，不写材质/纹理/着色器代码；无随机性。

5. VLM Judge：如何评分

tool_judge 调用 ClaudeVisionCritic.evaluate()，流程：将 8 张多视角渲染图 copy 到 critic_images 目录；构建 judge prompt，包含 identity_recognizability（weight=0.25）、completeness_checklist（weight=0.20）、geometry_detail（weight=0.20）、structure_plausibility（weight=0.15）、fit_quality（weight=0.10）等 7 个评分标准；以 agent 方式调用 Claude，允许 agent 读取图像文件后输出 JSON；计算 overall_score，pass_threshold = 0.65。

6. Fix Loop：失败后自动迭代

Runner 的主循环最多 max_global_iters 次：执行所有 ready 的 tasks，若所有 judge 通过则提前终止；否则 build_fix_tasks 分析失败原因，生成 fix task（per-part judge 失败则创建 fix_part 任务包含得分、保留项和改进项；assembly judge 失败则创建 fix_loop 任务包含所有 criterion 的得分和 suggested_fixes；runtime 错误则创建包含 traceback 的 fix_part_runtime 任务），追加到 DAG 并重跑。Sticky-pass 机制：per-part judge 一旦通过，在后续迭代中该 part 不再重新运行，防止 VLM 评分随机性导致退步。

7. Template + Instances：重复 part 的代价优化

当某 object 有重复 part（如 4 条腿），design agent 使用 instances 字段：Part agent 只写 build_leg() 一个函数（canonical pose），build.py 负责 copy × 4，命名为 Leg_0, Leg_1, Leg_2, Leg_3。实测效益：4 条腿从 ~$3.0（4 个独立 agent）→ $0.74（1 个 canonical agent），节省 75%，且 per-part judge 质量更高。

主要实验结果

单物体基准（cabinet）：design.json contract 引入后：首跑 0.74，Frame 由 3 个 cube 变成真实 5 面板空心柜体，Drawer 变成真实 5 面板开口箱。geometry_contracts skill 引入后：首跑 0.693 通过，省 $0.25，快 150s（节省一整个 fix 迭代）。
12 品类测试（Opus 4.8，v2 judge）：11/12 通过（bike, cabinet, lamp, plant, truck, guitar, chair, drill, fan, propeller, jet 全通过；robot 15 parts FAIL，score ~0.55）。
主要收益来源：bike 从 FAIL → 0.858；修复 --tools + --strict-mcp-config 节省每轮 7-9K tokens；Skills soft-hint：per-part 基础 context 减少 47%（cache_creation 36K → 19K），无质量退步。
系统性瓶颈：geometry_detail（avg ~0.69）。根因不是代码几何不够，而是 EEVEE 渲染可读性差：无 ambient occlusion、AgX tone mapping 压平 surface detail、_force_base_color 将每个 part 刷成单一 Base Color。最强预测因子是颜色多样性（3 色 object avg 0.55-0.62 vs 5-9 色 object avg 0.72-0.80）。

局限与展望

已知局限：过程式几何以块状机械形为主，难以生成有机曲面（人脸、花瓣）；geometry_detail judge 分数 ceiling 受限于 render 可读性，不反映几何实际质量；Joints agent 尚未感知 template+instances（生成 singular link name，与 build.py 产出的 Leg_0..3 不匹配，导致 URDF export 失败）；Scene 域（多物体）展开策略未实现。
可扩展性：SubgraphTask 支持任意嵌套：scene→object→part，runner 无需修改，只需注册新的 expander。Agent backend 多态（Claude/Gemini/Codex）让系统随 frontier model 能力提升直接受益。整个 src/ 目录纯 bpy + stdlib，topos freeze 后可在无 Topos 安装的 Blender 环境中运行。