Hunan University 本次发布的数据集 mmWalk, mmWalk是一个模拟的多模态数据集,专为户外安全导航设计,整合了多视图传感器和面向可访问性的特征。数据集包含120条手动控制的、按场景分类的行走轨迹,共62,167帧同步帧,超过559,503张全景图像,包括RGB、深度和语义分割等模态。此外,为了强调现实世界的相关性,每个轨迹都涉及户外特殊情况和无障碍特定地标,以帮助低视力用户导航。同时,我们生成了mmWalkVQA,这是一个包含超过69k个视觉问答三元组的VQA基准,旨在为安全、知情的步行辅助提供可访问和包容的基准。通过在真实世界数据集上验证mmWalk微调模型的有效性,我们展示了该数据集在推进多模态步行辅助方面的潜力。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)