首页 / 开源数据市场 / 正文

IBM Research 发布 SmolDocling-256M-preview 数据集, 应用在文档理解、自然语言处理领域

五号数据雷达开源数据市场2025-03-18 07:3348

SmolDocling-256M-preview 是 IBM Research 发布的数据集,于 2025-03-15 首发在 arXiv 应用于文档理解、自然语言处理领域

IBM Research 本次发布的数据集 SmolDocling-256M-preview, SmolDocling-256M-preview是IBM Research和HuggingFace共同构建的一个文档理解数据集，该数据集为公开源数据集，包含了图表、表格、公式和代码识别等任务所需的数据。数据集由来自CommonCrawl、Wikipedia和商业相关文档的PDF文档构成，通过一系列处理步骤增加了弱标注信息，以支持文档元素如方程、表格、代码和图表的视觉识别和结构化理解。该数据集旨在促进文档转换和结构识别任务的研究，解决文档理解中的格式多样性和布局复杂性挑战。

查看SmolDocling-256M-preview

Dataset card 内容：

Files and versions 内容：

关于 IBM Research , IBM Research是IBM公司的研发部门，致力于科学、技术和商业问题的研究，是全球最大的工业研究机构之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

IBM Research 发布 SmolDocling-256M-preview 数据集, 应用在 文档理解、自然语言处理 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

IBM Research 发布 SmolDocling-256M-preview 数据集, 应用在文档理解、自然语言处理领域