首页 / 开源数据市场 / 正文

复旦大学发布UniRec40M数据集,应用在文档识别、光学字符识别领域

五号数据雷达开源数据市场2025-12-26 16:0787

UniRec40M是复旦大学发布的数据集,于2025-12-24首发在arXiv应用于文档识别、光学字符识别领域

复旦大学本次发布的数据集UniRec40M,UniRec40M是由复旦大学和字节跳动联合构建的大规模文本与公式识别数据集，包含4000万中英文样本，涵盖纯文本、纯公式及混合内容。数据集融合了arXiv和Wikipedia的LaTeX源码、数字原生PDF文档及多个公开数据集（如LSVT、HWDB等），通过自动化标注和人工校验确保多层级（字符/行/段落）标注质量。其构建过程创新性地采用颜色标识的LaTeX渲染对齐技术，支持跨模态语义解耦。该数据集旨在训练轻量级统一模型UniRec-0.1B，解决文档解析中文本与公式的结构多样性及语义纠缠问题，适用于数字教育、信息检索等需要高效OCR的领域。

查看UniRec40M

README内容：

关于复旦大学,复旦大学是中国一所著名的综合性研究型大学，位于上海市，创建于1905年，是中国顶尖的高等教育机构之一，以文理医工等多学科协调发展著称。

关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门