贵州中汇科技发展有限公司本次登记的数据知识产权类案检索结构化数据集,构建1000万条类案检索数据集时,以案件特征向量化和结构化索引为核心,对当事人、案由/罪名、涉案金额、诉讼请求、争议焦点、关键事实、裁判结果、适用法条、地域法院、审级程序等维度进行标准化编码,结合关键词索引、字段倒排索引、法条索引、案由层级索引、金额区间索引和语义向量索引建立多维检索体系,并通过案由一致、法条重合、事实要素相近、裁判结果相似、争议焦点匹配等规则计算类案相似度,支撑从“文本相似”向“法律关系相似、裁判逻辑相似”的高级类案检索转化。该写法与可研报告中关于“案情—判决数据集用于模型训练、类案检索结构化数据集用于提取案件事实、法律依据和判决结果等关键要素并建立索引”的建设思路一致。





_1769672084863.jpg)