华中科技大学 本次发布的数据集 MonkeyDoc, MonkeyDoc是一个用于文档解析的综合性数据集,由华中科技大学和金山办公共同创建。该数据集包含390万个实例,涵盖了超过十种文档类型,包括中文和英文。MonkeyDoc是迄今为止最全面的文档解析数据集,支持多任务、多领域和双语的训练与评估。数据集的构建过程包括多阶段的数据生成流程,结合了现有的公共数据集、精细的手工标注、程序化数据合成和专家模型驱动的自动标注,确保了高质量、多样性和可扩展性。MonkeyDoc旨在为文档解析模型的训练、基准测试和部署提供坚实的基础资源。
README 内容:
关于 华中科技大学 , 华中科技大学是中国的一所综合性全国重点大学,位于湖北省武汉市,是‘211工程’和‘985工程’的首批建设高校之一,也是国家‘世界一流大学和一流学科’建设高校。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)