IBM Research 本次发布的数据集 SmolDocling-256M-preview, SmolDocling-256M-preview是IBM Research和HuggingFace共同构建的一个文档理解数据集,该数据集为公开源数据集,包含了图表、表格、公式和代码识别等任务所需的数据。数据集由来自CommonCrawl、Wikipedia和商业相关文档的PDF文档构成,通过一系列处理步骤增加了弱标注信息,以支持文档元素如方程、表格、代码和图表的视觉识别和结构化理解。该数据集旨在促进文档转换和结构识别任务的研究,解决文档理解中的格式多样性和布局复杂性挑战。
Dataset card 内容:
Files and versions 内容:
关于 IBM Research , IBM Research是IBM公司的研发部门,致力于科学、技术和商业问题的研究,是全球最大的工业研究机构之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)