five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

兰卡斯特大学发布PyMUSAS multilingual semantic annotation dataset数据集,应用在语义标注、多语言语义分析领域

五号数据雷达开源数据市场2026-01-16 06:5117
PyMUSAS multilingual semantic annotation dataset是兰卡斯特大学发布的数据集,于2026-01-15首发在arXiv应用于语义标注、多语言语义分析领域

兰卡斯特大学本次发布的数据集PyMUSAS multilingual semantic annotation dataset,该数据集由兰卡斯特大学团队构建,是首个针对USAS语义标注框架的多语言开放资源,包含银标准英文训练数据(约665万Tokens)及手动标注的中文评估数据集。数据源自高质量维基百科文档及特定领域文本(如芬兰咖啡网站、军事新闻),通过规则标注与人工校验结合生成。其核心价值在于解决多语言语义消歧任务中缺乏标注数据的问题,支持英语、芬兰语、威尔士语、爱尔兰语和中文的语义分析模型训练与评估。

查看PyMUSAS multilingual semantic annotation dataset

Dataset card内容:

 

Files and versions内容:

 

关于兰卡斯特大学,兰卡斯特大学(Lancaster University)是英国一所著名的公立研究型大学,成立于1964年,位于英格兰西北部的兰卡斯特市。该校在多个学科领域享有盛誉,尤其在语言学、计算机科学、环境科学和管理学方面表现突出。兰卡斯特大学是N8研究联盟的成员之一,也是全球大学高研院联盟的成员。

关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们