奈良先端科学技术大学院大学 本次发布的数据集 CoAM: Corpus of All-Type Multiword Expressions, CoAM数据集是由奈良先端科学技术大学院大学和Resolve Research共同创建的多词表达(MWE)识别数据集,包含1300个句子。该数据集旨在解决现有MWE识别数据集标注不一致、类型单一或规模有限的问题。数据集通过多步骤构建过程,包括人工标注、人工审查和自动化一致性检查,确保数据质量。数据集中的MWE被标记为不同类型(如名词、动词等),以便进行细粒度的错误分析。数据集的应用领域包括机器翻译和词汇复杂性评估等自然语言处理任务,旨在提高MWE识别的准确性和可靠性。
查看CoAM: Corpus of All-Type Multiword Expressions
关于 奈良先端科学技术大学院大学 , 奈良先端科学技术大学院大学(NAIST)是日本一所专注于信息科学、生物科学和材料科学的研究型大学,以其高水平的研究和教育而闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)