马德里自治大学本次发布的数据集CrimeNERdb,CrimeNERdb是由马德里自治大学等机构联合构建的首个大规模犯罪领域命名实体识别数据集,包含1,568份来自美国司法部新闻稿和全球恐怖主义数据库的真实犯罪文档。该数据集采用双层标注体系,定义了5类粗粒度实体(犯罪、行为者、代理、机构、后勤)和22种细粒度实体,标注总词条数达18,543个。数据经过专业清洗和人工标注,特别支持嵌套实体识别任务,旨在解决犯罪领域标注数据稀缺背景下零样本/小样本NER的挑战,为执法机构信息提取提供基准工具。
关于马德里自治大学,马德里自治大学是西班牙马德里自治区的一所公立大学,创建于1968年,以高水平的教学和研究著称,在多个国际大学排名中位列西班牙前列。
关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)