five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Trelis发布ai-terms-public数据集,应用在自动语音识别、人工智能领域

五号数据雷达开源数据市场2026-03-11 03:0629
ai-terms-public是Trelis发布的数据集,于2026-03-10首发在HuggingFace应用于自动语音识别、人工智能领域

Trelis本次发布的数据集ai-terms-public,AI-Terms (Public) 是一个专注于技术性AI术语的自动语音识别(ASR)评估基准数据集,旨在测试ASR系统在处理模型名称、公司名称、基准名称和新颖技术概念等专业术语时的表现。数据集包含12个AI新闻内容的音频样本,每个样本均标注有参考转录文本(带词级时间戳)和实体级字符偏移标注(包括公司、模型、产品、基准、人物和技术术语等类别)。音频由爱尔兰口音的英语使用者录制,适用于测试ASR系统对特定口音和技术术语的识别能力。数据来源为smol.ai新闻,并经过合成改写以避免与在线文本完全匹配,从而防止数据污染。数据集采用三层次评估系统(公开、半私有和私有),公开部分用于透明性和可复现性。数据集支持实体级字符错误率(CER)分析,以衡量ASR模型在技术术语上的转录准确性。数据集结构包括音频、文本、时间戳、语言代码和实体标注等字段。评估可通过Trelis Studio进行,结果包括总体CER、实体CER及分类别CER分析。数据集采用CC-BY 4.0许可,允许商业使用,但需署名。

查看ai-terms-public

关于Trelis,Trelis Research 提供高级大型语言模型微调脚本、推理指南、API模板以及视觉和语音转录微调服务。

关于HuggingFace,全球最大的开源机器学习模型和数据集社区平台。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们