首页 / 开源数据市场 / 正文

University of Toronto 发布 CantoNLU 数据集, 应用在粤语自然语言处理、自然语言理解领域

五号数据雷达开源数据市场2025-10-25 10:3623

CantoNLU 是 University of Toronto 发布的数据集,于 2025-10-23 首发在 arXiv 应用于粤语自然语言处理、自然语言理解领域

University of Toronto 本次发布的数据集 CantoNLU, CantoNLU 是一个针对粤语自然语言理解（NLU）的基准数据集，由多伦多大学和安大略科技大学的研究团队创建。该数据集涵盖了七个任务，包括词义消歧、语言可接受性判断、语言检测、自然语言推理、情感分析、词性标注和依存句法分析。数据集由手动编译的词义消歧数据集、从错误跨度数据集改编的语言可接受性判断数据集以及从并行语料库中构建的语言检测数据集组成。CantoNLU旨在解决粤语语言处理领域缺乏评估框架的问题，并促进未来粤语自然语言处理研究的发展。

查看CantoNLU

关于 University of Toronto , 多伦多大学是一所位于加拿大安大略省多伦多市的公立研究型大学，是加拿大最古老的大学之一，也是世界著名的研究机构，尤其在医学、工程、商业和人文科学等领域享有盛誉。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

University of Toronto 发布 CantoNLU 数据集, 应用在 粤语自然语言处理、自然语言理解 领域

社区讨论

University of Toronto 发布 CantoNLU 数据集, 应用在粤语自然语言处理、自然语言理解领域