five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

奈良先端科学技术大学院大学 发布 CoAM: Corpus of All-Type Multiword Expressions 数据集, 应用在 多词表达识别、自然语言处理 领域

五号数据雷达开源数据市场2024-12-26 15:5022
CoAM: Corpus of All-Type Multiword Expressions 是 奈良先端科学技术大学院大学 发布的数据集,于 2024-12-24 首发在 arXiv 应用于 多词表达识别、自然语言处理 领域

奈良先端科学技术大学院大学 本次发布的数据集 CoAM: Corpus of All-Type Multiword Expressions, CoAM数据集是由奈良先端科学技术大学院大学和Resolve Research共同创建的多词表达(MWE)识别数据集,包含1300个句子。该数据集旨在解决现有MWE识别数据集标注不一致、类型单一或规模有限的问题。数据集通过多步骤构建过程,包括人工标注、人工审查和自动化一致性检查,确保数据质量。数据集中的MWE被标记为不同类型(如名词、动词等),以便进行细粒度的错误分析。数据集的应用领域包括机器翻译和词汇复杂性评估等自然语言处理任务,旨在提高MWE识别的准确性和可靠性。

查看CoAM: Corpus of All-Type Multiword Expressions

关于 奈良先端科学技术大学院大学 , 奈良先端科学技术大学院大学(NAIST)是日本一所专注于信息科学、生物科学和材料科学的研究型大学,以其高水平的研究和教育而闻名。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们