当前全球多语种大模型、跨境语音AI赛道进入高速发展期,高质量、合规化的训练数据已成为制约产业创新的核心瓶颈,而数据产权登记作为数据要素确权、合规流通的核心前置环节,是数据资产实现市场化价值的必要基础。作为安徽省数据要素市场建设的核心基础设施,安徽省数据产权登记平台承担着全省数据资源权属核验、登记存证、流通溯源等核心职能,可为登记主体提供权属证明、价值评估支撑、合规性背书等服务,为数据要素后续的交易、共享、开发应用扫清权属障碍。
2026年5月22日,安徽声云智能科技有限公司旗下的声云大规模多语种语料资源数据集正式在该平台完成登记,成为国内为数不多完成官方产权登记的大规模多语种语音类数据集。
本次登记的声云大规模多语种语料资源数据集是一款规模化、高质量的多语种语音数据集,由多个子集构成,覆盖越南语、日语等多个语种,是国内当前稀缺的全链路多语种语音语料库。该数据集创新性采用“标注数据+无监督数据”双轨结构,兼顾了传统AI模型有监督训练与大模型预训练的双重需求,数据形态完整、技术兼容性强,可适配当前主流的各类大模型训练框架。
从应用价值来看,该数据集核心用于ASR(语音识别)大模型的训练与预训练,其中标注数据可直接用于下游模型的微调、特定语种语音识别能力的定向优化,无监督数据可帮助大模型在预训练阶段学习更丰富的语音特征,提升模型对不同口音、复杂环境下语音识别的鲁棒性。经过该数据集训练的ASR模型,可广泛应用于跨境电商智能语音客服、出海智能硬件(智能音箱、车载语音交互系统等)的多语种能力部署、涉外政务多语种语音服务、小语种地区语音信息无障碍建设、跨境文旅智能语音导览等多个场景,为跨语言语音交互创新提供核心数据支撑。
登记内容:
本次数据集完成产权登记,一方面意味着数据生产方安徽声云对该数据集的合法权益得到官方确认,可有效规避后续流通环节中的权属纠纷,保护企业在数据采集、标注、治理环节的研发投入;另一方面也为下游AI研发企业提供了可溯源、合规性有保障的稀缺多语种数据来源,大幅降低大模型训练的数据合规风险。该登记案例也为国内语音类数据资产的确权、流通提供了可参考的样本,对完善数据要素市场化配置体系、推动语音AI产业和多语种大模型赛道的健康发展具有积极的示范意义。





_1769672084863.jpg)