Trelis本次发布的数据集ai-terms-public,AI-Terms (Public) 是一个专注于技术性AI术语的自动语音识别(ASR)评估基准数据集,旨在测试ASR系统在处理模型名称、公司名称、基准名称和新颖技术概念等专业术语时的表现。数据集包含12个AI新闻内容的音频样本,每个样本均标注有参考转录文本(带词级时间戳)和实体级字符偏移标注(包括公司、模型、产品、基准、人物和技术术语等类别)。音频由爱尔兰口音的英语使用者录制,适用于测试ASR系统对特定口音和技术术语的识别能力。数据来源为smol.ai新闻,并经过合成改写以避免与在线文本完全匹配,从而防止数据污染。数据集采用三层次评估系统(公开、半私有和私有),公开部分用于透明性和可复现性。数据集支持实体级字符错误率(CER)分析,以衡量ASR模型在技术术语上的转录准确性。数据集结构包括音频、文本、时间戳、语言代码和实体标注等字段。评估可通过Trelis Studio进行,结果包括总体CER、实体CER及分类别CER分析。数据集采用CC-BY 4.0许可,允许商业使用,但需署名。
关于Trelis,Trelis Research 提供高级大型语言模型微调脚本、推理指南、API模板以及视觉和语音转录微调服务。
关于HuggingFace,全球最大的开源机器学习模型和数据集社区平台。





_1769672084863.jpg)