首页 / 数据产权登记 / 正文

语联网2025多语种大模型数据集完成深圳产权登记覆盖140+语种支撑AI出海全场景

五号数据雷达数据产权登记2026-05-08 04:5910

2026年5月8日，语联网（武汉）信息技术有限公司旗下2025年多语种多领域大模型数据集正式在深圳数据产权登记服务中心完成产权登记，该数据集覆盖140余种语言及数十个垂直行业权威语料，可广泛应用于多语种大模型训练、翻译引擎优化、垂直领域AI产品研发等场景，为国内AI产业自主研发与跨境数字化服务提供合规高质量数据支撑。

当前我国数据要素市场化配置改革正进入深化落地阶段，高质量合规训练语料作为人工智能大模型研发的核心生产资料，其产权确权、合规流通已成为AI产业发展的核心刚需。作为国内数据要素制度改革的先行试点，深圳数据产权登记服务中心承担着数据产权存证、公示、权益确认等核心职能，出具的登记凭证可作为数据资产估值、流通交易、权益维护的重要合规依据。2026年5月8日，语联网（武汉）信息技术有限公司旗下2025年语联网多语种多领域大模型数据集正式在此完成登记，成为国内为数不多完成合规产权登记的多语种大模型核心语料资产。

本次完成登记的多语种语料数据集，是语联网深耕语言服务行业多年积累的核心数据资产，核心可应用于大模型基座训练、大模型应用产品研发迭代、翻译引擎训练优化三大方向。
在大模型基座训练层面，该语料将支撑语联网全栈自研的任度大模型研发：目前任度大模型已发布21亿、90亿多模态参数版本，300亿参数基座正处于训练阶段。该模型从zANN底层算法、moH混合熵架构到数推分离双网络均实现全栈自主研发，具备自主可控、0开源依赖、实时学习、长期记忆、高性参比、低算力消耗等核心特性，可有效规避开源模型的技术卡脖子风险，为我国多语种AI技术自主可控提供支撑。
在大模型应用研发迭代层面，该语料可覆盖垂直AI产品全生命周期的训练需求：针对中医药数字化场景，传神素问中医大模型可依托古籍典籍、临床诊疗语料优化问诊路径、辨证准确性与方剂推荐合理性，助力中医药数字化传承与出海；针对专业翻译场景，小元翻译、Twins LSP云译客、太好译AI平台可依托垂直领域语料提升专业文档处理效率与翻译准确率，覆盖法律、医疗、工程等多个高门槛专业翻译需求；针对跨境服务场景，全球会客厅、数字孪生译员、AI翻译硬件等产品可适配跨境电商沟通、国际会议同传、跨国企业协作等多元场景，降低跨境沟通成本，助力外贸、出海企业的市场化落地。
在翻译引擎优化层面，该数据集覆盖140+语种、数十个垂直行业的权威语料，可有效提升翻译引擎的术语一致性、领域适配度与跨文化适配能力，满足专业翻译、智能同传、跨境沟通、出海内容本地化等多元需求，实现翻译质量、效率、成本的三重优化，尤其可为一带一路沿线国家的跨境合作、中国企业全球化布局提供语言服务基础设施支撑。

本次数据产权登记的完成，一方面明确了该语料数据集的权益归属，为语联网后续的数据集研发、应用及流通提供了合规保障；另一方面也为国内多语种AI产业提供了可合规使用的高质量语料标的，后续该数据集可通过合规渠道进入数据要素市场流通，降低更多中小AI企业、跨境服务企业的多语种产品研发门槛，对我国多模态大模型自主研发、数字贸易发展、跨境数字化服务能力提升均具备重要的探索意义。

查看2025年语联网多语种多领域大模型数据集

登记内容：

社区讨论

近期热门

语联网2025多语种大模型数据集完成深圳产权登记 覆盖140+语种支撑AI出海全场景

登记内容：

社区讨论

语联网2025多语种大模型数据集完成深圳产权登记覆盖140+语种支撑AI出海全场景