当前,我国人工智能产业进入规模化落地期,多语种语音交互能力已经成为智能硬件出海、跨境AI服务、涉外公共服务等领域的核心刚需,而经过合规确权、标注质量可控的多语种语料资源,长期以来都是AI训练数据市场的稀缺品类。作为安徽省推进数据要素市场化配置改革的核心基础设施,安徽省数据产权登记平台承担着数据权属确认、流通溯源、合规校验等公共服务职能,经该平台登记的数据产品可获得官方权属凭证,为后续交易、授权、质押等市场化操作提供合规依据。
2026年5月22日,安徽声云智能科技有限公司旗下声云大规模多语种语料资源数据集正式在上述平台完成登记。
本次完成登记的声云大规模多语种语料资源数据集是一款大规模、高质量的多语种语音数据集,由多个子集构成,覆盖越南语、日语等多个稀缺小语种,是目前国内少有的规模化多语种语音语料库。该数据集采用“标注数据+无监督数据”双轨结构,可同时满足传统有监督模型训练与大语言模型预训练的不同需求,数据形态完整、技术兼容性强,核心应用方向为ASR(语音识别)大模型训练和预训练,训练优化后的模型可广泛应用于AI智能硬件语音能力部署及多语种语音服务等场景。
从落地价值来看,该数据集的潜在应用场景覆盖多个高潜力赛道:面向消费电子出海企业,可用于训练智能音箱、智能手机、车载终端等硬件的多语种语音交互功能,降低出海产品的本地化研发成本;面向跨境服务领域,可支撑多语种实时语音翻译、跨境电商智能语音客服、涉外政务服务语音识别等系统的迭代优化;面向文化数字化领域,可助力小语种有声资源、历史语音档案的自动化转写与归档,为文化资源数字化保护提供技术支撑。
本次数据集完成产权登记,一方面标志着安徽省在AI训练数据要素确权领域的实践进一步深化,填补了当地多语种语料类数据产品登记的空白,也为全国同类数据产品的合规化流通提供了参考样本;另一方面,通过明确数据产权归属,可有效降低数据要素流通中的权属纠纷风险,提升AI上游数据供给的合规性与稳定性,为我国人工智能产业的健康发展提供底层支撑。





_1769672084863.jpg)