上海人工智能实验室 本次发布的数据集 DocGenome, DocGenome是由上海人工智能实验室创建的一个大规模科学文档基准数据集,包含50万篇来自arXiv开放访问社区的科学文档,涵盖153个学科。该数据集通过定制的自动标注管道进行结构化处理,具有完整性、逻辑性、多样性和正确性四大特点。数据集内容丰富,包括文档分类、视觉定位、文档布局检测等多种任务,旨在通过这些任务提升大型模型处理科学文档的能力。创建过程中,采用了先进的自动标注技术,确保数据质量。DocGenome的应用领域广泛,主要用于评估和提升多模态大型语言模型在科学文档处理方面的性能,推动AI辅助科学探索和发现。
关于 上海人工智能实验室 , 上海人工智能实验室是一家专注于人工智能技术研究和应用的科研机构,致力于推动人工智能领域的创新和发展。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)