机器人能在一整栋楼里完成任务吗?比如从一楼仓库取货、坐电梯到五楼办公室、再完成配送——这类跨楼层、长时序任务,过去一直缺乏合适的数据支撑。
3月14日,清华大学联合智元机器人、麦吉尔大学,在论文《MANSION: Multi-floor Language-to-3D Scene Generation for Long-horizon Tasks》中,推出 MansionWorld 数据集。该数据集面向具身智能,提供建筑级3D场景,用于训练与评估智能体在整栋建筑中的任务执行能力。
数据集地址: MansionWorld

数据集内容与规模
- 1. 超过 1,000 个可交互建筑场景(住宅、办公、公共设施)
- 2. 每栋建筑包含 2–10 层结构
- 3. 总房间数超过 10,000 个
- 4. 提供结构化数据(布局文件 JSON 与平面图 PNG)
主要特点
- 1. 跨层建模:支持楼梯、电梯等真实空间连接
- 2. 长时序任务:支持跨楼层导航、搬运与连续操作
- 3. 语言驱动编辑:可通过自然语言修改场景(Task-Semantic Editing)
- 4. 仿真生态兼容:支持接入 AI2-THOR 等仿真平台,便于算法验证与实验复现
技术背景与意义
现有具身智能数据集(如 HM3D、Matterport3D 等)虽覆盖建筑级场景,但主要聚焦于”单层导航+短时序任务“。MansionWorld 将研究范围拓展至“多楼层 + 长时序任务”,进一步引入:
- 1. 跨楼层空间推理(Vertical Reasoning)
- 2. 长时序任务规划(Long-horizon Planning)
- 3. 建筑级环境建模(Building-scale Embodiment)
实验结果表明,当前最先进的具身智能模型在该数据集上的性能明显下降,反映出多楼层结构与长时序任务带来的挑战。MansionWorld 的发布,为物流配送、巡检等多楼层应用提供了更贴近真实场景的研究基础。






_1769672084863.jpg)