ArXivCap是由香港大学和北京大学联合构建的一个图像-标题数据集,包含了来自ArXiv中57万篇学术论文的640万张图像和390万条标题及摘要,总计达1.93亿词汇。这些图像和标题覆盖了多个科学领域,如计算机科学、数学、物理和经济学等。在构建过程中,研究团队首先筛选高质量的论文,然后提取并转换图像与标题,清洗并过滤数据,最终进行统计分析。与以往基于合成图像的数据集不同,ArXivCap的数据来源于真实的学术论文,它提供了更真实的学术图像-标题对,有助于更全面地评估和改进大型视觉语言模型对科学内容的理解能力。
数据集地址: https://huggingface.co/datasets/MMInstruction/ArxivCap





_1769672084863.jpg)