nguyenvulebinh/libris_clean_100|语音识别数据集|自然语言处理数据集

nguyenvulebinh/libris_clean_100

Hugging Face2022-12-06 更新2024-03-04 收录1080

语音识别

自然语言处理

资源简介：

LibriSpeech是一个包含约1000小时16kHz英语朗读语音的语料库，数据来源于LibriVox项目的有声读物，并经过仔细的分段和对齐处理。数据集支持自动语音识别（ASR）和音频说话人识别任务，并提供了两个配置：clean和other。数据集的结构包括音频文件路径、音频数据、文本转录、说话人ID、章节ID和唯一ID等信息。数据集分为训练集、验证集和测试集，训练集进一步分为train.100、train.360和train.500。数据集的创建者包括Vassil Panayotov、Guoguo Chen、Daniel Povey和Sanjeev Khudanpur，使用CC BY 4.0许可证。

原始地址：

立即探测

提供机构：

nguyenvulebinh