随着我国数据要素市场化配置改革进入落地深水区,数据知识产权登记作为明确数据权益归属、打通数据资产化、流通交易全链条的核心前置环节,已成为各地数字经济建设的重点布局方向。作为全国首个国家级大数据综合试验区,贵州近年来在数据知识产权制度创新、平台建设层面持续推进,贵州省数据知识产权登记平台作为官方指定的登记服务载体,承担全省范围内数据知识产权的申请受理、合规审核、公示存证、凭证发放等职能,其出具的登记证明可作为后续数据资产入表、交易流通、权益维权的重要依据。
2026年5月6日,贵州中汇科技发展有限公司申报的司法案例知识图谱数据集正式通过上述平台审核完成登记,成为国内少数完成官方确权的司法领域结构化知识图谱类数据资产。
据了解,本次登记的司法案例知识图谱数据集以“去重后的单个案件”为基本单元,通过多层治理流程完成非结构化司法数据的标准化转换:首先对原始数据按文本进行规范化去重,在统一全半角、空白符、换行符、剔除无效噪声后计算文本指纹,保留同一案件的唯一记录,解决了传统司法案例数据库普遍存在的重复收录、数据冗余问题;在此基础上,将每个案件对应的14组问答对按预设规则映射为案由/罪名、程序类型、裁判结果、争议焦点、适用法条、关键数额、核心说理、判决主文、是否终审等固定结构化槽位,针对不同格式的回答内容采用分层解析算法,兼容普通文本、JSON字符串、数组、嵌套对象等多种异构数据格式,同步完成实体标准化与值归一化处理,包括法条名称统一表述、金额字段统一转换为数值格式、布尔类字段统一转换为“是/否”标识、列表内容去重等,解决了司法数据格式异构、表述不统一导致的算法无法直接调用的痛点。
在标准化治理的基础上,该数据集进一步搭建形成“案件节点—要素节点—关系边”的完整知识图谱骨架:一方面为单个案件与对应案由、法条、争议焦点、涉案金额、审理程序、裁判结果等要素建立显式关联关系,另一方面通过案由一致、法条重合、焦点相近、程序相同、结果一致等多维度规则计算不同案件之间的关联强度,补充生成“类案关联边”;同时所有节点与关联边均保留来源案件ID、原始问题、原始答案及必要的原文证据片段,实现了图谱数据全链路可追溯,充分满足司法场景对数据可信度、可溯源性的高要求。
登记内容:
从应用价值来看,本次完成登记的司法案例知识图谱数据集除了可直接应用于司法知识图谱搭建、类案智能推荐两大核心场景外,未来还可广泛应用于裁判文书智能检索、量刑辅助分析、司法公开智能问答、法律服务智能匹配、法学研究样本分析等多个智慧司法细分领域,为各类司法数字化应用提供标准化、高质量的数据底座,大幅降低行业重复开展数据清洗、标注、治理的成本。
行业分析指出,本次司法案例知识图谱数据集的成功登记,是司法领域衍生数据知识产权确权的典型实践,不仅丰富了贵州省数据要素市场的垂直领域数据供给,也为全国专业知识类数据集的合规登记、权益保护、流通应用提供了可参考的落地样本,对推动专业领域数据要素的规范化开发与市场化流通具有重要示范意义。





_1769672084863.jpg)