five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

马德里自治大学发布CrimeNERdb数据集,应用在犯罪领域、命名实体识别领域

五号数据雷达开源数据市场2026-03-04 05:2224
CrimeNERdb是马德里自治大学发布的数据集,于2026-03-03首发在arXiv应用于犯罪领域、命名实体识别领域

马德里自治大学本次发布的数据集CrimeNERdb,CrimeNERdb是由马德里自治大学等机构联合构建的首个大规模犯罪领域命名实体识别数据集,包含1,568份来自美国司法部新闻稿和全球恐怖主义数据库的真实犯罪文档。该数据集采用双层标注体系,定义了5类粗粒度实体(犯罪、行为者、代理、机构、后勤)和22种细粒度实体,标注总词条数达18,543个。数据经过专业清洗和人工标注,特别支持嵌套实体识别任务,旨在解决犯罪领域标注数据稀缺背景下零样本/小样本NER的挑战,为执法机构信息提取提供基准工具。

查看CrimeNERdb

关于马德里自治大学,马德里自治大学是西班牙马德里自治区的一所公立大学,创建于1968年,以高水平的教学和研究著称,在多个国际大学排名中位列西班牙前列。

关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们