北京大学 本次发布的数据集 ToolVQA, ToolVQA 是一个包含 23K 样本的大规模多模态数据集,旨在解决现有数据集在真实世界工具使用场景中的不足。该数据集采用真实世界视觉上下文和具有挑战性的隐式多步推理任务,更好地与现实用户交互场景对齐。数据集涵盖了 10 种多模态工具,跨越 7 个不同领域,平均推理长度为 2.78 步。ToolVQA 的构建过程采用了一种名为 ToolEngine 的数据生成流程,该流程使用图像引导的深度优先搜索(DFS)和基于最长公共子序列(LCS)的示例匹配机制来模拟人类工具使用推理过程。该数据集可用于评估和提升大型基础模型(LFMs)在真实世界任务中的工具使用能力。
README 内容:
关于 北京大学 , 北京大学是中国著名的高等学府,成立于1898年,位于中国首都北京,是中国最早的国立综合性大学,也是中国近代高等教育的开端。北京大学在各个学科领域都有深厚的研究基础和卓越的教学质量,是中国高等教育的重要标志。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)