five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 数据知识产权登记 / 正文

火石创造生物制造产业链结构文本训练数据完成浙江省数据知识产权登记 赋能生物经济多场景决策

五号数据雷达数据知识产权登记2026-05-30 04:506
2026年5月29日,火石创造科技有限公司旗下生物制造产业链结构文本训练数据正式完成浙江省数据知识产权登记,该合规脱敏的专用AI训练数据集可广泛应用于生物制造产业链分析、生物原料智能分类等领域,为生物经济全链路主体提供标准化数据支撑。

随着我国《“十四五”生物经济发展规划》落地推进,生物制造产业规模持续扩容,叠加数据要素市场化配置改革的不断深化,垂直产业领域的合规训练数据资产化、流通化正成为行业核心需求。作为国内率先投入运营的省级数据知识产权确权基础设施,浙江省数据知识产权登记平台承担着数据资产权属认定、合规校验、流通凭证出具等核心职能,为各类市场主体的数据资产化探索提供官方合规依据。

2026年5月29日,火石创造科技有限公司申报的生物制造产业链结构文本训练数据正式在该平台完成知识产权登记。本次登记的数据集专门面向生物制造产业链智能分类、原料图谱构建等AI模型的训练与开发场景设计,通过关联脱敏后的企业文本信息与原料类型标签,为生物经济领域的数字化应用提供标准化的数据工具。

为满足数据安全与隐私保护要求,数据集在加工前已完成严格的匿名化与去标识化处理:原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,从源头保障了数据集的合规性,为后续模型训练提供了洁净、可靠的输入基础。

本次数据处理严格遵循“体系先行、业务匹配、特征抽取”的核心原则,形成了全链路标准化加工流程:首先是分类框架构建,团队依据国家生物经济发展战略及相关产业分类标准,搭建了从“生物制造”一级节点出发,按产业链位置划分为“上游:生物原料与生物技术”二级节点,再按原料来源与技术代际细分为“生物原料”三级节点、以及“第一代粮食原料”“第二代非粮原料”“第三代气体原料”四级节点的树状分类体系,为数据加工提供了符合产业逻辑的科学框架。其次是业务匹配环节,采用“自动化规则匹配+人工校验”的双层机制:先依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的生物制造产业语义规则库自动推荐初步分类节点,再由具备生物经济、化工行业专业背景的标注团队进行审核判定,确保企业被精准归入对应的原料类型与技术代际分类。最后是特征抽取环节,在完成分类匹配的同时,从企业简介文本中系统性抽取核心产品、技术相关的关键术语,经去重、标准化处理后形成“正向词”特征串,作为分类标签的语义补充,进一步提升数据集的应用价值。

最终形成的数据集为结构化“文本-标签”对格式,每条数据均包含脱敏后的企业描述文本、经人工校验的一至四级完整分类标签、细化业务特征词与产业标签,全面覆盖生物制造上游油脂、淀粉、秸秆、工业气体等核心原料领域,是可直接用于生物制造产业链分析、原料供应商智能分类、技术路线研究等模型训练与评估的高质量专用数据集。

从应用方向来看,该数据集可覆盖生物经济领域三类核心主体的需求:第一是面向生物燃料、生物基材料、精细化工等下游生产企业的原料供应链分析与寻源场景,基于该数据集训练的AI模型可帮助企业精准识别、匹配不同代际生物原料的供应商,优化原料采购决策,提升供应链韧性;第二是面向政府及产业规划部门的技术路线与产业布局研究场景,可辅助相关部门分析区域在油脂化工、秸秆综合利用、工业气体等不同生物原料领域的产业集聚度、技术成熟度与产业链完整度,为制定差异化的生物经济发展规划、精准开展招商引资提供决策依据;第三是面向投资机构与行业研究团队的投资赛道与创新趋势研判场景,可支持相关机构对三代生物原料的技术演进路径、市场竞争格局、潜在投资机会进行量化分析与动态跟踪,降低赛道研判的信息差。

本次数据知识产权登记的完成,一方面明确了该数据集的权属关系,为后续其面向产业界的授权使用、流通交易提供了官方合规凭证,另一方面也为垂直产业领域专用训练数据的资产化探索提供了参考样本,对推动生物经济与数据要素市场的融合发展具有积极意义。

查看生物制造产业链结构文本训练数据

登记内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们