随着全国数据要素市场化配置改革向细分领域纵深推进,农业作为数字化转型的重点赛道,专业数据资产的合规确权、流通应用正成为行业关注的核心方向。作为国内率先推进数据知识产权制度落地的试点省份,浙江省数据知识产权登记平台承担着数据资产权属确认、合规校验、流通存证的核心公共服务职能,是当地数据要素市场建设的关键基础设施,此次登记成果正是该平台在农业细分领域的典型落地案例。
2026年5月26日,火石创造科技有限公司旗下的绿色食品产业链结构文本训练数据正式在上述平台完成知识产权登记。该数据集瞄准当前绿色食品产业链主体分散、分类标准不统一、AI产业应用缺乏专业训练语料的行业痛点,专门服务于绿色食品产业链智能分类与产业图谱构建模型的训练与开发,通过关联企业文本与产业链环节标签,为绿色食品产业全链路的管理与服务提供标准化数据工具。
为符合《数据安全法》《个人信息保护法》等相关法律法规要求,该数据集在加工前已完成严格的匿名化与去标识化处理:原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,从源头保障了数据的合规性,可为后续的模型训练、跨主体流通提供洁净、可靠的输入基础。
在数据加工环节,团队严格遵循“体系先行、业务匹配、特征抽取”的核心规则,形成了全链路标准化处理流程:首先参考农业农村部《绿色食品分类目录》及农业生产专业分工,构建了以“绿色食品”为一级节点,上游包含“原材料”“绿色食品农药”“专业技术服务”等二级节点,进一步细化为“作物种植、育种”“畜牧养殖、种猪”“杀虫剂”“农产品质量检测”等三级节点的树状分类体系,为数据标注提供了符合产业实际的专业逻辑框架。其次采用“自动化规则匹配与人工校验相结合”的标注策略,依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的绿色食品产业语义规则库自动推荐初步分类节点,再由具备农业、食品行业专业背景的标注专家进行审核判定,大幅提升了分类准确率。同时在标注过程中同步抽取企业核心产品、技术相关的关键术语,经去重、标准化后形成“正向词”特征串,作为分类标签的语义补充,进一步提升了数据集的应用价值。
最终形成的结构化“文本-标签”数据集,每条数据均包含脱敏后的企业描述文本,以及经人工校验的一至三级完整分类标签、业务特征词与产业标签,全面覆盖绿色食品产业链上游的作物种植、畜牧养殖、良种繁育及配套农药、检测服务等核心环节,是国内少有的分类体系专业、业务特征鲜明、可直接投入模型训练与评估的高质量农业专用数据集。
从应用价值来看,该数据集训练产出的模型可覆盖三大核心场景:一是原材料供应商寻源,可赋能食品加工企业、大型商超、采购平台精准识别匹配绿色食品产业链上游的优质作物种植基地、畜牧养殖企业及种畜繁育场,优化采购决策,降低供应链匹配成本,提升供应链韧性;二是产品质量追溯与监管,可辅助政府、市场监管部门快速掌握区域内绿色食品原材料的生产布局、种养规模与企业资质,为食品安全监管、质量溯源体系建设提供数据支撑,提升监管响应效率;三是农业产业规划与投资分析,可支持农业研究机构、投资方洞察绿色食品原材料领域的产业集聚度、技术应用水平及市场发展潜力,为地方农业产业布局规划、细分赛道投资决策提供科学依据。
业内人士指出,此次绿色食品产业链训练数据的成功登记,不仅为火石创造的该数据资产提供了具备法律效力的权属证明,为后续的授权使用、交易流通扫清了合规障碍,更为农业细分领域的专业数据资产确权、价值释放提供了可复制的参考样本,将进一步推动数据要素在数字乡村建设、农业数字化转型中的价值落地,助力全国数据要素市场向垂直领域的纵深拓展。





_1769672084863.jpg)