首页 / 开源数据市场 / 正文

Meta AI 发布 CCD V2 数据集, 应用在自动语音识别、公平性评估领域

五号数据雷达开源数据市场2025-10-06 09:2618

CCD V2 是 Meta AI 发布的数据集,于 2025-10-06 首发在 arXiv 应用于自动语音识别、公平性评估领域

Meta AI 本次发布的数据集 CCD V2, 该数据集名为CCD V2，包含了来自印度、美国、印度尼西亚、越南、巴西、墨西哥和菲律宾等不同地区的5,567位独特发言人的语音数据。其中包含了26,467段视频录音，总计354小时的非脚本自然回应和319小时对陀思妥耶夫斯基作品《白痴》的朗读。此外，该数据集还包含了七个自我标记的属性，如年龄、性别、语言、残疾和肤色等级，这允许分析在各类人口统计属性中，自动语音识别系统性能的差异。规模上，该数据集涉及5,567位发言人，26,467段录音，总计354小时的录音内容。该数据集的任务是评估自动语音识别系统的公平性。

查看CCD V2

关于 Meta AI , Meta AI是Meta公司的人工智能研究部门，致力于开发和应用先进的人工智能技术，以支持Meta的产品和服务。Meta AI的研究涵盖了从基础研究到应用开发的广泛领域，旨在推动AI技术的边界。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

Meta AI 发布 CCD V2 数据集, 应用在 自动语音识别、公平性评估 领域

社区讨论

Meta AI 发布 CCD V2 数据集, 应用在自动语音识别、公平性评估领域