five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

华中科技大学 发布 MonkeyDoc 数据集, 应用在 文档解析、自然语言处理 领域

五号数据雷达开源数据市场2025-06-08 09:03236
MonkeyDoc 是 华中科技大学 发布的数据集,于 2025-06-06 首发在 arXiv 应用于 文档解析、自然语言处理 领域

华中科技大学 本次发布的数据集 MonkeyDoc, MonkeyDoc是一个用于文档解析的综合性数据集,由华中科技大学和金山办公共同创建。该数据集包含390万个实例,涵盖了超过十种文档类型,包括中文和英文。MonkeyDoc是迄今为止最全面的文档解析数据集,支持多任务、多领域和双语的训练与评估。数据集的构建过程包括多阶段的数据生成流程,结合了现有的公共数据集、精细的手工标注、程序化数据合成和专家模型驱动的自动标注,确保了高质量、多样性和可扩展性。MonkeyDoc旨在为文档解析模型的训练、基准测试和部署提供坚实的基础资源。

查看MonkeyDoc

README 内容: 

 

关于 华中科技大学 , 华中科技大学是中国的一所综合性全国重点大学,位于湖北省武汉市,是‘211工程’和‘985工程’的首批建设高校之一,也是国家‘世界一流大学和一流学科’建设高校。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们