Nexdata 本次发布的数据集 [SAMPLE] Nexdata | Multilingual Read Speech Data | 65,000 Hours | Generative AI Audio Data| ..., 该数据集包含65,000小时的多语言朗读语音数据,适用于生成式AI音频数据。数据格式为16kHz、16位、未压缩的wav单声道文件,录制环境为无回声的安静室内。内容涵盖经济、娱乐、新闻、口语、数字和字母等。录音由母语者完成,性别均衡,使用Android手机和iPhone录制。支持100多种语言,并包含文本、语音数据时间点、5种噪声符号和5种特殊标识符的转录内容。准确率高达95%,适用于语音识别和声纹识别等应用场景。
查看[SAMPLE] Nexdata | Multilingual Read Speech Data | 65,000 Hours | Generative AI Audio Data| ...
数据集详情页内容:
关于 Nexdata , Nexdata 是一家专注于数据管理和分析的公司,提供数据集成、数据仓库和商业智能解决方案,帮助企业实现数据驱动的决策。
关于 Databricks , Databricks 数据市场是一个开放的数据市场,旨在跨云、区域和平台无缝共享数据和协作。它允许数据提供者和消费者交换包括数据集、notebooks、应用程序、解决方案加速器和人工智能模型在内的数据资产,且无需依赖特定平台。通过预构建的notebooks和示例数据,消费者能够更快速、高效地评估数据产品。





_1769672084863.jpg)