首页 / 开源数据市场 / 正文

ELYADATA发布CV-18 NER数据集,应用在语音识别、命名实体识别领域

五号数据雷达开源数据市场2026-04-04 05:3720

CV-18 NER是ELYADATA发布的数据集,于2026-04-03首发在arXiv应用于语音识别、命名实体识别领域

ELYADATA本次发布的数据集CV-18 NER,CV-18 NER是由ELYADATA团队创建的首个阿拉伯语语音命名实体识别数据集，基于Common Voice 18阿拉伯语子集构建。该数据集包含约8小时15分钟的语音数据，共计7119条标注样本，采用细粒度的Wojood标注体系（21种实体类型）。数据集通过自动预标注与人工修订相结合的方式构建，首先利用AraBERT模型生成伪标签，再由专业标注员进行人工校正，最终过滤掉不含实体的语句。该数据集主要用于评估端到端阿拉伯语语音命名实体识别系统的性能，解决阿拉伯语语音理解任务中标注资源匮乏的问题，为低资源场景下的语义解析提供基准。

查看CV-18 NER

关于arXiv,全球最大的预印本学术论文数据库，涵盖物理、数学、计算机科学等多个学科领域。

社区讨论

近期热门