Trelis本次发布的数据集test-draft-asr-e2e,test-draft-asr-e2e 是一个为语音识别任务准备的音频数据集,使用 Trelis Studio 制作。数据集包含 1 个源文件,4 个训练样本,总时长为 2.1 分钟。数据集的列包括音频段(16kHz)、纯文本转录、带 Whisper 时间戳标记的转录、前一段的纯文本(用于条件预处理)、原始音频中的开始和结束时间、语音持续时间、词级时间戳(JSON 格式)、源文件名和语言代码(ISO 639-1)。语音分割通过 CTC 对齐或转录时间戳定义,将完整音频分割为约 20 秒的块。训练使用提供了两种方法:2-bucket 方法(50% 使用纯文本转录,50% 使用带时间戳的转录)和 4-bucket 方法(增加条件预处理,考虑前一段的上下文)。数据集适用于语音识别和连续对话建模任务。
关于Trelis,Trelis Research 提供高级大型语言模型微调脚本、推理指南、API模板以及视觉和语音转录微调服务。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)