兰卡斯特大学本次发布的数据集PyMUSAS multilingual semantic annotation dataset,该数据集由兰卡斯特大学团队构建,是首个针对USAS语义标注框架的多语言开放资源,包含银标准英文训练数据(约665万Tokens)及手动标注的中文评估数据集。数据源自高质量维基百科文档及特定领域文本(如芬兰咖啡网站、军事新闻),通过规则标注与人工校验结合生成。其核心价值在于解决多语言语义消歧任务中缺乏标注数据的问题,支持英语、芬兰语、威尔士语、爱尔兰语和中文的语义分析模型训练与评估。
查看PyMUSAS multilingual semantic annotation dataset
Dataset card内容:
Files and versions内容:
关于兰卡斯特大学,兰卡斯特大学(Lancaster University)是英国一所著名的公立研究型大学,成立于1964年,位于英格兰西北部的兰卡斯特市。该校在多个学科领域享有盛誉,尤其在语言学、计算机科学、环境科学和管理学方面表现突出。兰卡斯特大学是N8研究联盟的成员之一,也是全球大学高研院联盟的成员。
关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)