加州大学默塞德分校 本次发布的数据集 ADVLAT-Engine, ADVLAT-Engine是一个用于自动生成大量指令-动作对数据集的自动化数据收集原型系统。该数据集由加州大学默塞德分校的Mi3实验室的研究团队创建,旨在通过使用GPS应用程序和自然语言处理技术,自动收集和分类各种指令,并配合视频数据形成完整的视觉-语言-动作三元组。该数据集包含来自Google Maps、Apple Maps和Waze等导航应用程序的指令,并按照不同的分类进行标注。ADVLAT-Engine可以自动收集数据,包括视频(视觉)、指令(语言)和车辆轨迹(动作),用于训练自主视觉语言导航模型。该数据集的创建过程涉及使用GPS应用程序收集指令,并使用OpenAI Whisper模型进行语音转录,然后将指令与视频帧和GPS位置同步。ADVLAT-Engine的应用领域包括视觉语言导航和人机交互自主系统,旨在解决数据集创建过程中人力成本高、效率低的问题。
关于 加州大学默塞德分校 , 加州大学默塞德分校是加州大学系统中最年轻的成员,成立于2005年。该校致力于提供高质量的教育和研究,特别是在可持续发展和环境科学领域有显著的研究成果。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)