本次发布的数据集SE-Eval,SE-Eval是首个专门为语音编辑(SE)模型自动评估设计的大规模基准数据集。传统TTS指标往往无法捕捉局部编辑质量,而SE-Eval提供了多维度的真实评估标准,包括整体质量(平均意见得分MOS)、边界自然度(边界MOS)和上下文一致性(环境、韵律和情感一致性)。数据集总时长为24.21小时的编辑语音,包含9,151个独特的合成音频片段,覆盖了10种主流语音编辑模型(扩散模型、自回归模型和端到端架构),并提供了44,451个由专业标注者提供的主观评分。数据集涵盖五个具有挑战性的子领域:RealEdit(日常真实世界音频场景)、LongHard(复杂长句和罕见术语)、Environment(多样化环境背景)、Prosody(表达性游戏角色语音)和Emotion(高保真情感语音)。每个样本包含原始音频、编辑后的音频、转录文本和多维度人类评分。
Dataset card内容:
Files and versions内容:
关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)