首页 / 开源数据市场 / 正文

CLASSLA - CLARIN Knowledge Centre for South Slavic Languages 发布 ParlaSpeech-CZ 数据集, 应用在语音识别、政治话语分析领域

五号数据雷达开源数据市场2024-12-13 01:4621

ParlaSpeech-CZ 是 CLASSLA - CLARIN Knowledge Centre for South Slavic Languages 发布的数据集,于 2024-07-25 首发在 HuggingFace 应用于语音识别、政治话语分析领域

CLASSLA - CLARIN Knowledge Centre for South Slavic Languages 本次发布的数据集 ParlaSpeech-CZ, ParlaSpeech-CZ.v1.0数据集是从捷克议会记录的ParlaMint语料库和捷克议会的YouTube频道上的议会录音构建的。该数据集包含与转录文本中特定句子对应的音频段，并提供了单词级别的对齐，包括字符和毫秒的开始和结束偏移。数据集已经移除了超过30秒的序列，适用于大多数现代GPU。每个段都有一个标识符引用ParlaMint 4.0语料库。在HuggingFace版本中，只提供了部分元数据，如日期、发言者姓名、性别、出生年份、党派归属等。此外，该版本还包含一个`text_normalised`属性，去除了议会评论。

查看ParlaSpeech-CZ

Dataset card 内容：

Files and versions 内容：

关于 CLASSLA - CLARIN Knowledge Centre for South Slavic Languages , CLASSLA是CLARIN（语言资源的计算机应用与研究基础设施）的一个知识中心，专注于南斯拉夫语言的语料库构建、工具开发和语言资源研究。

关于 HuggingFace , Hugging Face是一个机器学习社区协作平台，专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型，包括文本、图像、视频、音频和3D数据，并提供开源工具和付费计算及企业解决方案。

社区讨论

近期热门

CLASSLA - CLARIN Knowledge Centre for South Slavic Languages 发布 ParlaSpeech-CZ 数据集, 应用在 语音识别、政治话语分析 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

CLASSLA - CLARIN Knowledge Centre for South Slavic Languages 发布 ParlaSpeech-CZ 数据集, 应用在语音识别、政治话语分析领域