当前数据要素已成为数字经济时代的核心生产资料,尤其是多语种语料资源作为跨境AI服务、多模态大模型研发的核心供给,其产权清晰度、合规性直接决定了AI产品的商业化落地边界,在出海服务、国际交流等场景下,经过规范确权的语料数据可大幅降低企业知识产权风险。作为国内率先开展数据产权登记试点的公共服务平台,深圳数据产权登记服务中心出具的登记凭证可作为数据资产入账、流通交易、权益保护的重要依据,是国内数据要素市场规范化建设的核心基础设施之一。
2026年5月8日,传神语联网网络科技股份有限公司旗下「2025年传神语联多语种多领域大模型数据集」正式在该中心完成产权登记,成为国内少有的覆盖140+语种、数十个垂直行业的合规确权大模型语料资产。本次登记的数据产权主要应用于大模型基座训练、大模型应用产品研发迭代、翻译引擎训练优化三大核心场景。
在大模型基座训练层面,该数据集将支撑传神语联全栈自研的任度大模型迭代,目前该模型已发布21亿、90亿多模态参数版本,正推进300亿参数基座训练,从zANN底层算法、moH混合熵架构到数推分离双网络均实现完全自主研发,具备自主可控、0开源依赖、实时学习、长期记忆、高性参比、低算力消耗等核心优势。经过确权的高质量多语种语料,将进一步提升基座模型的多语言理解能力、跨文化适配性,为后续面向全球市场的大模型产品落地筑牢数据基础。
在大模型应用研发迭代层面,该语料数据集将覆盖垂直AI产品全生命周期的研发需求:传神素问中医大模型可依托典籍、诊疗类多语种语料优化问诊流程、辨证准确率与方剂推荐合理性;小元翻译、Twins LSP云译客、太好译AI平台可借助细分行业语料提升专业文档处理效率与翻译准确率;全球会客厅、数字孪生译员、AI翻译硬件等产品可通过高质量语料加持提升场景适配能力,降低跨境电商、国际会议、出海企业等多元主体的语言与文化沟通壁垒,助力产品市场化落地。
在翻译引擎优化层面,该数据集覆盖140+语种、数十个垂直行业的权威语料,能够有效提升专业术语翻译一致性,强化不同领域、不同文化语境下的表达适配度,可满足专业文献翻译、智能同传、跨境商务沟通、企业出海本地化等多场景需求,帮助相关服务实现翻译质量、响应效率、运营成本的三重优化。
本次数据集完成产权登记,既是传神语联在数据资产合规化管理领域的重要布局,也为国内多语种AI领域的语料数据确权、流通提供了参考样本。随着国内数据要素市场建设的不断推进,经过规范确权的优质垂直数据集将成为AI产业发展的核心竞争力,尤其是在跨境服务、多语言交互等细分赛道,清晰的数据产权不仅能够降低企业的知识产权风险,也为后续数据资产的流通交易、价值变现提供了合规基础,对推动我国多语种AI产业的规范化、规模化发展具有重要意义。





_1769672084863.jpg)