当前我国数据要素市场化配置改革正进入深化落地阶段,高质量合规训练语料作为人工智能大模型研发的核心生产资料,其产权确权、合规流通已成为AI产业发展的核心刚需。作为国内数据要素制度改革的先行试点,深圳数据产权登记服务中心承担着数据产权存证、公示、权益确认等核心职能,出具的登记凭证可作为数据资产估值、流通交易、权益维护的重要合规依据。2026年5月8日,语联网(武汉)信息技术有限公司旗下2025年语联网多语种多领域大模型数据集正式在此完成登记,成为国内为数不多完成合规产权登记的多语种大模型核心语料资产。
本次完成登记的多语种语料数据集,是语联网深耕语言服务行业多年积累的核心数据资产,核心可应用于大模型基座训练、大模型应用产品研发迭代、翻译引擎训练优化三大方向。
在大模型基座训练层面,该语料将支撑语联网全栈自研的任度大模型研发:目前任度大模型已发布21亿、90亿多模态参数版本,300亿参数基座正处于训练阶段。该模型从zANN底层算法、moH混合熵架构到数推分离双网络均实现全栈自主研发,具备自主可控、0开源依赖、实时学习、长期记忆、高性参比、低算力消耗等核心特性,可有效规避开源模型的技术卡脖子风险,为我国多语种AI技术自主可控提供支撑。
在大模型应用研发迭代层面,该语料可覆盖垂直AI产品全生命周期的训练需求:针对中医药数字化场景,传神素问中医大模型可依托古籍典籍、临床诊疗语料优化问诊路径、辨证准确性与方剂推荐合理性,助力中医药数字化传承与出海;针对专业翻译场景,小元翻译、Twins LSP云译客、太好译AI平台可依托垂直领域语料提升专业文档处理效率与翻译准确率,覆盖法律、医疗、工程等多个高门槛专业翻译需求;针对跨境服务场景,全球会客厅、数字孪生译员、AI翻译硬件等产品可适配跨境电商沟通、国际会议同传、跨国企业协作等多元场景,降低跨境沟通成本,助力外贸、出海企业的市场化落地。
在翻译引擎优化层面,该数据集覆盖140+语种、数十个垂直行业的权威语料,可有效提升翻译引擎的术语一致性、领域适配度与跨文化适配能力,满足专业翻译、智能同传、跨境沟通、出海内容本地化等多元需求,实现翻译质量、效率、成本的三重优化,尤其可为一带一路沿线国家的跨境合作、中国企业全球化布局提供语言服务基础设施支撑。
本次数据产权登记的完成,一方面明确了该语料数据集的权益归属,为语联网后续的数据集研发、应用及流通提供了合规保障;另一方面也为国内多语种AI产业提供了可合规使用的高质量语料标的,后续该数据集可通过合规渠道进入数据要素市场流通,降低更多中小AI企业、跨境服务企业的多语种产品研发门槛,对我国多模态大模型自主研发、数字贸易发展、跨境数字化服务能力提升均具备重要的探索意义。





_1769672084863.jpg)