Meta AI 本次发布的数据集 CCD V2, 该数据集名为CCD V2,包含了来自印度、美国、印度尼西亚、越南、巴西、墨西哥和菲律宾等不同地区的5,567位独特发言人的语音数据。其中包含了26,467段视频录音,总计354小时的非脚本自然回应和319小时对陀思妥耶夫斯基作品《白痴》的朗读。此外,该数据集还包含了七个自我标记的属性,如年龄、性别、语言、残疾和肤色等级,这允许分析在各类人口统计属性中,自动语音识别系统性能的差异。规模上,该数据集涉及5,567位发言人,26,467段录音,总计354小时的录音内容。该数据集的任务是评估自动语音识别系统的公平性。
关于 Meta AI , Meta AI是Meta公司的人工智能研究部门,致力于开发和应用先进的人工智能技术,以支持Meta的产品和服务。Meta AI的研究涵盖了从基础研究到应用开发的广泛领域,旨在推动AI技术的边界。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)