香港科技大学(广州)本次发布的数据集PAP-12K,PAP-12K是由香港科技大学(广州)团队构建的首个全景功能预测基准数据集,包含1,003张12K超高分辨率(11904×5952)的360度全景图像,覆盖12类室内场景。数据集创新性地标注了13,493个推理型QA对及功能掩码,通过专业全景相机原生采集,保留了真实场景的几何畸变、极端尺度变化和边界不连续性等挑战特性。其构建过程采用标准化拍摄流程与两阶段标注策略,旨在解决传统针孔相机模型在具身智能中视野局限、环境信息碎片化的问题,为全景环境下的任务规划与物体交互研究提供关键数据支撑。
关于香港科技大学(广州),香港科技大学(广州)是香港科技大学在内地的分校,位于广州市南沙区,致力于培养具有国际视野的创新人才,推动跨学科研究和教育。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)