KAUST 本次发布的数据集 MOLE, MOLE数据集由KAUST研究机构创建,包含10000个标记的Tokens,用于命名实体识别(NER)和词性标注(PoS)任务。该数据集旨在帮助从科学论文中自动提取元数据属性,支持多语言数据集,包括阿拉伯语、英语、俄语、法语和日语。数据集的创建过程涉及对52篇不同语言的论文进行手动标注,并使用结构化模式进行元数据属性的提取和验证。MOLE数据集的发布旨在促进科学研究的可发现性和可重复性,并推动基于大语言模型的信息提取技术的发展。
Dataset card 内容:
Files and versions 内容:
关于 KAUST , 阿卜杜拉国王科技大学(KAUST)是位于沙特阿拉伯的一所国际研究型大学,专注于科学、工程、计算机科学和商业管理等领域的研究与教育,致力于通过创新研究和技术转移推动全球和区域的发展。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)