美团 本次发布的数据集 CSFormula, CSFormula数据集是一个大规模且具有挑战性的数据集,包含多学科和结构复杂的公式,覆盖了行、段落和页面级别的公式。数据集不仅包含单行公式,还包括多行和页面级别的复杂布局,使模型能够学习高级科学领域中丰富的结构和多样的表达,确保在现实世界的文档场景中具有鲁棒性。数据集分为三个层级:行级别、段落级别和页面级别,每个层级都有大量独特的公式样本。数据集的创建过程包括从多个学科领域收集复杂公式样本,使用高效的数据采集和处理工具进行清洗和组织。数据集可用于训练和评估模型,以实现高难度的结构复杂的公式的识别。
README 内容:
关于 美团 , 美团是中国领先的生活服务电子商务平台,成立于2010年,总部位于北京。公司通过其移动应用和网站提供餐饮外卖、酒店预订、电影票务、休闲娱乐等多种服务,致力于为用户提供便捷的生活服务体验。美团已成为中国互联网行业的领军企业之一,并在全球范围内具有重要影响力。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)