3月11日,华东江苏大数据交易中心上架了数据产品“苏州话方言自由对话数据库”,以离线数据包的形式对外提供。该数据集基于Android及iOS系统的多品牌智能手机录制,主要采集人群为:姑苏区、工业园区、相城区、高新区、吴中区,文件大小为51G,收录了450个人(男女各半)200个小时的录音,存储格式为16k Hz采样率和16bit采样精度的单通道未压缩wav。底层数据维度包含6个标签字段(语料、标注、静音、语音、听不清、无效)。该数据为吴语方言自由对话数据,可用于语音识别系统训练、测试、语音分析、口音研究等多种用途。
数据集地址: http://www.hddatapay.com/dataProductInfo/Details/179





_1769672084863.jpg)