当前,我国数据要素市场建设已进入“确权先行、场景落地”的攻坚阶段,生物医药作为数字经济与实体经济深度融合的核心赛道,其产业链数据的合规确权、流通应用一直是行业探索的重点方向。作为全国首个数据知识产权试点省份,浙江省搭建的省级数据知识产权登记平台,承担着数据资产权属存证、合规性前置审核、流通交易支撑等公共服务职能,为各类市场主体的数据资产化、价值变现提供了官方认可的基础设施支撑。
2026年5月27日,国内产业大数据服务商火石创造科技有限公司旗下的体外诊断(IVD)产业链结构文本训练数据,正式在该平台完成知识产权登记,成为IVD细分领域率先完成合规确权的专用AI训练数据集,将为产业链智能分类、体外诊断产业图谱构建等相关AI模型的训练开发提供高质量语料支撑。
据了解,本数据集在加工前已完成严格的匿名化与去标识化处理:原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,完全符合《数据安全法》《个人信息保护法》等相关法律法规要求,为后续模型训练提供了洁净、合规的输入基础。
本次数据处理严格遵循“体系先行、业务匹配、特征抽取”的核心规则,形成了一套标准化加工流程:首先依据体外诊断行业官方技术分类标准,预先构建了覆盖“一级节点(体外诊断)-二级节点(生化、免疫、分子、血液诊断等技术路线)-三级节点(生物试剂、酶联免疫、PCR等具体产品/技术类别)”的树状分类体系,为数据加工提供了专业的结构化框架;其次采用“自动化规则匹配+人工校验”的双轨策略,依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,再由具备医学检验、生物技术行业背景的专业标注团队完成审核校验,确保分类结果的准确性;最终同步完成核心产品技术术语的抽取与标准化,形成“正向词”特征串作为分类标签的语义补充。
加工完成的数据集为结构化“文本-标签”格式,每条数据均包含脱敏后的企业描述文本、经人工校验的三级分类标签、核心业务特征正向词与产业标签,全面覆盖IVD领域所有主流技术平台及其配套试剂、仪器的研发、生产、销售企业,形成了分类体系专业、技术指向明确、特征粒度丰富的专用训练语料,可直接用于产业链分析、技术创新监测、供应商识别、市场竞争研究等多类AI模型的训练与评估。
从应用价值来看,该数据集的使用场景覆盖IVD产业全链路决策需求:在政府治理端,可辅助地方产业主管部门、研究机构梳理各细分领域的企业分布、技术路线与创新动态,为产业政策制定、科技专项布局、区域生物医药产业园招商引资提供数据支撑;在企业经营端,可帮助IVD试剂、仪器及服务企业快速匹配上游核心原材料供应商、下游客户及第三方服务机构,优化供应链布局,应对核心原材料断供风险;在资本决策端,可支撑投资机构、咨询公司精准拆解不同技术平台的市场格局、头部企业布局及高成长性创新标的,减少产业研究信息差,为投资、并购决策提供参考。
本次IVD产业链训练数据完成知识产权登记,既为生物医药垂直领域的AI模型训练提供了合规、高质量的专用语料,也为产业类数据的合规确权、资产化流通提供了可复制的实践样本,对推动数据要素在医疗健康领域的落地应用具有重要的示范意义。
首页 / 数据知识产权登记 / 正文
浙江完成体外诊断产业链结构文本训练数据知识产权登记 赋能IVD产业全链路数字化决策
五号数据雷达数据知识产权登记2026-05-28 05:4814
2026年5月27日,国内产业大数据服务商火石创造旗下体外诊断产业链结构文本训练数据,正式在浙江省数据知识产权登记平台完成确权登记,该数据集可支撑IVD产业链智能分类、产业图谱构建等多场景AI模型训练,为生物医药细分领域数据要素的合规流通提供典型样本。

社区讨论
近期热门




_1769672084863.jpg)