清华大学 本次发布的数据集 OrionBench, OrionBench是一个用于图表和可识别对象检测的数据集,包含26,250个真实和78,750个合成信息图,以及超过690万个边界框标注。这些标注是通过结合模型循环和程序化方法创建的。OrionBench旨在支持开发精确的图表和可识别对象检测模型,并包含105,000个标注信息图。数据集被分为训练集和测试集,用于评估模型性能。OrionBench的创建过程包括信息图收集和信息图标注两个主要步骤。真实信息图来自在线平台,合成信息图则基于设计模板创建。为了有效标注信息图,采用了模型循环和程序化方法。OrionBench在图表理解、信息图对象检测和图形布局检测方面具有广泛应用。
Dataset card 内容:
Files and versions 内容:
关于 清华大学 , 清华大学是中国著名的高等学府,位于北京,具有很高的国际声誉。该校软件学院专注于软件工程及相关领域的研究与教育。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)