five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

KAUST 发布 MOLE 数据集, 应用在 自然语言处理、科学研究自动化 领域

五号数据雷达开源数据市场2025-05-28 07:3817
MOLE 是 KAUST 发布的数据集,于 2025-05-26 首发在 arXiv 应用于 自然语言处理、科学研究自动化 领域

KAUST 本次发布的数据集 MOLE, MOLE数据集由KAUST研究机构创建,包含10000个标记的Tokens,用于命名实体识别(NER)和词性标注(PoS)任务。该数据集旨在帮助从科学论文中自动提取元数据属性,支持多语言数据集,包括阿拉伯语、英语、俄语、法语和日语。数据集的创建过程涉及对52篇不同语言的论文进行手动标注,并使用结构化模式进行元数据属性的提取和验证。MOLE数据集的发布旨在促进科学研究的可发现性和可重复性,并推动基于大语言模型的信息提取技术的发展。

查看MOLE

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 KAUST , 阿卜杜拉国王科技大学(KAUST)是位于沙特阿拉伯的一所国际研究型大学,专注于科学、工程、计算机科学和商业管理等领域的研究与教育,致力于通过创新研究和技术转移推动全球和区域的发展。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们