当前,随着我国数据要素市场化配置改革向纵深推进,数据知识产权登记作为明确数据权属、保障数据主体权益、规范数据流通交易的核心前置性制度安排,已成为各行业合规数据产品入场流通、资产化运营的必备基础。其中智慧司法作为数字政府建设的重点赛道,高质量、标准化、合规化的司法训练数据长期是制约司法大模型效能提升、辅助决策系统落地的核心瓶颈。2026年5月6日,贵州中汇科技发展有限公司旗下的案情判决训练数据集,正式在贵州省数据知识产权登记平台完成登记,为司法类数据产品的合规化确权、流通探索了可行路径。
作为贵州省数据知识产权登记体系下的代表性司法类数据产品,本次登记的案情判决训练数据集针对大模型微调的核心需求开发,在构建“案情—判决”微调数据集时,以去重后的单篇裁判文书为最小样本单元,先通过文本指纹、案号校验、版面噪声清洗、隐私脱敏和文书类型识别完成数据底座治理,解决了原始裁判文书格式杂乱、隐私信息泄露、重复冗余等问题,满足了数据合规的核心要求;再基于“事实描述—争议焦点—法律适用—裁判理由—判决结果”的司法逻辑链进行分层抽取,将案件事实、主体关系、时间地点、行为过程、证据要点、争议焦点、适用法条、裁判观点、判决主文、刑期/赔偿/责任承担等要素映射为统一字段,并按“输入案情、输出判决结论及理由”的指令模板生成约2000万条结构化微调样本,同时保留原文证据片段、字段来源位置和人工/规则校验结果,最终形成可训练、可追溯、可评测的监督学习数据。
据了解,贵州省数据知识产权登记平台是当地落实国家数据知识产权保护要求、推进数据要素市场建设的核心公共服务载体,经该平台登记的数据产品,其权属将获得官方认定,可后续用于流通交易、资产入表、合作研发等多元场景。本次案情判决训练数据集的成功登记,一方面标志着该数据集的合规性、独创性、实用性已经获得官方认可,另一方面也为垂直行业训练数据的知识产权登记提供了参考范式。
从应用价值来看,该数据集可广泛覆盖多类智慧司法场景:在司法机关侧,可用于开发类案检索、判决预测、裁判偏差预警等辅助办案系统,帮助法官提升办案效率,减少同案不同判问题;在法律服务侧,可支撑智能法律咨询、诉讼风险评估、合同智能审查等ToB、ToC法律服务产品的研发,降低法律服务的供给成本;在法学研究侧,可用于批量分析类案裁判规律、法律适用特征,为司法制度优化、立法修订提供实证数据支撑。查看案情判决训练数据集





_1769672084863.jpg)