本次发布的数据集PROFASR-BENCH,PROFASR-BENCH是由研究者Deepak Babu Piskala构建的专业场景语音识别评测数据集,聚焦金融、医疗、法律和技术四大高风险领域。该数据集包含自然语言提示与实体密集的目标话语配对数据,通过合成语音管道生成,确保专业术语覆盖和口音/性别多样性。其核心价值在于支持上下文条件化评估,包含实体感知指标和分片公平性分析,旨在解决传统ASR系统在专业术语识别和上下文利用不足的痛点。数据集采用标准化报告格式,为语音模型的实时领域适应能力提供基准测试框架。
Dataset card内容:
Files and versions内容:
关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)