中国科学院自动化研究所本次发布的数据集VisBrowse-Bench,VisBrowse-Bench是由蚂蚁集团等机构构建的多模态浏览代理基准数据集,包含169个经过严格人工验证的视觉问答实例,涵盖媒体、生活、艺术等7大领域。该数据集通过专家多阶段流水线构建,要求模型在搜索过程中进行跨模态证据验证和联合推理,旨在解决现有基准对视觉推理能力评估不足的问题,推动多模态搜索代理在复杂场景中的应用。
关于中国科学院自动化研究所,中国科学院自动化研究所是中国科学院下属的综合性研究机构,成立于1956年,专注于自动化、智能信息处理、复杂系统管理与控制等领域的研究。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)