香港中文大学 本次发布的数据集 MultiSPA, MultiSPA是一个大规模的多帧空间理解数据集,包含超过2700万个样本,涵盖了多样化的3D和4D场景。该数据集支持多种模态的引用和输出格式,包括视觉点注释、像素坐标和语义标签,从而拓宽了潜在的应用场景。数据集包含了从文本到标量、二维像素位置和三维位移向量等多种类型的空间信息。研究人员利用现有的注释3D和4D数据集进行数据收集,并通过采样具有均匀重叠分布的图像对以及回投影空间和时间对齐的点云来建立像素对应关系。MultiSPA数据集旨在帮助多模态大型语言模型更好地理解多帧空间信息,并用于机器人等实际应用中的空间推理任务。
关于 香港中文大学 , 香港中文大学是一所位于香港的著名综合性研究型大学,以其优秀的教学质量和科研实力享誉国际。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)