首页 / 开源数据市场 / 正文

Trelis发布ai-terms-public数据集,应用在自动语音识别、人工智能领域

五号数据雷达开源数据市场2026-03-11 03:0629

ai-terms-public是Trelis发布的数据集,于2026-03-10首发在HuggingFace应用于自动语音识别、人工智能领域

Trelis本次发布的数据集ai-terms-public,AI-Terms (Public) 是一个专注于技术性AI术语的自动语音识别（ASR）评估基准数据集，旨在测试ASR系统在处理模型名称、公司名称、基准名称和新颖技术概念等专业术语时的表现。数据集包含12个AI新闻内容的音频样本，每个样本均标注有参考转录文本（带词级时间戳）和实体级字符偏移标注（包括公司、模型、产品、基准、人物和技术术语等类别）。音频由爱尔兰口音的英语使用者录制，适用于测试ASR系统对特定口音和技术术语的识别能力。数据来源为smol.ai新闻，并经过合成改写以避免与在线文本完全匹配，从而防止数据污染。数据集采用三层次评估系统（公开、半私有和私有），公开部分用于透明性和可复现性。数据集支持实体级字符错误率（CER）分析，以衡量ASR模型在技术术语上的转录准确性。数据集结构包括音频、文本、时间戳、语言代码和实体标注等字段。评估可通过Trelis Studio进行，结果包括总体CER、实体CER及分类别CER分析。数据集采用CC-BY 4.0许可，允许商业使用，但需署名。

查看ai-terms-public

关于Trelis,Trelis Research 提供高级大型语言模型微调脚本、推理指南、API模板以及视觉和语音转录微调服务。

关于HuggingFace,全球最大的开源机器学习模型和数据集社区平台。

社区讨论

近期热门