ELYADATA本次发布的数据集CV-18 NER,CV-18 NER是由ELYADATA团队创建的首个阿拉伯语语音命名实体识别数据集,基于Common Voice 18阿拉伯语子集构建。该数据集包含约8小时15分钟的语音数据,共计7119条标注样本,采用细粒度的Wojood标注体系(21种实体类型)。数据集通过自动预标注与人工修订相结合的方式构建,首先利用AraBERT模型生成伪标签,再由专业标注员进行人工校正,最终过滤掉不含实体的语句。该数据集主要用于评估端到端阿拉伯语语音命名实体识别系统的性能,解决阿拉伯语语音理解任务中标注资源匮乏的问题,为低资源场景下的语义解析提供基准。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)