信息科学与技术学院,Vidyasirimedhi科学和技术研究所,泰国Rayong;计算机工程系,朱拉隆功大学,泰国曼谷;戏剧艺术系,朱拉隆功大学,泰国曼谷 本次发布的数据集 THAI Speech Emotion Recognition (THAI-SER) corpus, THAI-SER是一个包含41小时36分钟(27,854个语句)的泰语语音情感识别语料库,来自100个在不同录音环境(Zoom和两个录音室设置)中制作的录音。录音包括剧本和即兴表演,由200名专业演员(112名女性和88名男性,年龄在18至55岁之间)表演,并由专业导演执导。有五种主要情感:中性、愤怒、快乐、悲伤和沮丧,在录音时分配给演员。语句使用众包方式标注情感类别。为了控制标注过程的质量,我们还设计了一个广泛的过滤和质量控制方案,以确保大多数协议得分保持在0.71以上。我们使用两个指标评估我们标注的语料库:标注者间可靠性和人类识别准确性。标注者间可靠性得分使用Krippendorff的alpha计算,我们的语料库在过滤后实现了0.692的alpha得分,高于0.667的建议值。对于人类识别准确性,我们的语料库在过滤后得分高达0.772。我们还提供了在语料库上训练的模型的结果,并在语料库内和跨语料库设置上进行了评估。该语料库在Creative Commons BY-SA 4.0许可下公开发布,以及我们用于实验的代码。
查看THAI Speech Emotion Recognition (THAI-SER) corpus
Dataset card 内容:
Files and versions 内容:
关于 信息科学与技术学院,Vidyasirimedhi科学和技术研究所,泰国Rayong;计算机工程系,朱拉隆功大学,泰国曼谷;戏剧艺术系,朱拉隆功大学,泰国曼谷 , -
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)