复旦大学本次发布的数据集UniRec40M,UniRec40M是由复旦大学和字节跳动联合构建的大规模文本与公式识别数据集,包含4000万中英文样本,涵盖纯文本、纯公式及混合内容。数据集融合了arXiv和Wikipedia的LaTeX源码、数字原生PDF文档及多个公开数据集(如LSVT、HWDB等),通过自动化标注和人工校验确保多层级(字符/行/段落)标注质量。其构建过程创新性地采用颜色标识的LaTeX渲染对齐技术,支持跨模态语义解耦。该数据集旨在训练轻量级统一模型UniRec-0.1B,解决文档解析中文本与公式的结构多样性及语义纠缠问题,适用于数字教育、信息检索等需要高效OCR的领域。
README内容:
关于复旦大学,复旦大学是中国一所著名的综合性研究型大学,位于上海市,创建于1905年,是中国顶尖的高等教育机构之一,以文理医工等多学科协调发展著称。
关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)