five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 数据知识产权登记 / 正文

火石创造医药制品产业链训练数据完成浙江数据知识产权登记 赋能医药产业数智化升级

五号数据雷达数据知识产权登记2026-05-30 04:052
2026年5月29日,产业大数据服务商火石创造旗下医药制品产业链结构文本训练数据正式完成浙江省数据知识产权登记。该合规脱敏的结构化数据集可直接用于医药产业链分析、药企智能分类等场景的AI模型训练,为医药产业监管、供应链优化、政策制定提供高质量数据要素支撑。

随着我国数据要素市场化配置改革持续深化,数据知识产权登记作为明确数据权属、保障数据权益、促进数据合规流通的核心基础制度,正在各垂直产业领域加速落地。作为国内较早探索数据知识产权确权登记的省级平台,浙江省数据知识产权登记平台承担着数据权属确认、流通凭证出具、权益保护支撑等核心职能,近年来已覆盖多个产业赛道的高价值数据资产登记,为数据资产化、交易流通提供官方确权依据。

2026年5月29日,火石创造科技有限公司旗下的医药制品产业链结构文本训练数据正式在该平台完成知识产权登记,成为医药产业领域为数不多的完成官方确权的AI训练专用数据集。该数据集专门面向医药产业链智能分类、产业图谱构建等AI模型的训练与开发场景打造,通过关联企业文本信息与药品分类、产品类型标签,为医药产业研究、监管及市场化应用提供标准化核心数据工具。

为保障数据合规性,数据集在加工前已完成严格的匿名化与去标识化处理——原始企业名称被统一替换为不可逆规范标识符,所有个人及商业敏感信息被彻底移除,完全符合《数据安全法》《个人信息保护法》及医药行业数据管理的相关要求,为后续模型训练及应用落地筑牢了安全合规基础。

在数据加工环节,团队严格遵循“体系先行、业务匹配、特征抽取”的核心原则,搭建了全流程标准化的处理框架:首先依托国家药监局(NMPA)药品分类、国家基本药物目录、国家医保药品目录等多个权威分类标准,构建了以“医药制品”为一级节点的四层树状分类体系,向下逐级覆盖化学药、中药等三级节点,以及原料药、中成药、创新药、医保药品等具体四级节点,为数据标注提供了专业、统一的结构化框架。其次采用“自动化规则匹配+专业人工校验”的双重审核机制:先通过Spark大数据处理框架对企业简介文本进行分布式清洗、分词与关键词匹配,依托预构建的医药产业语义规则库自动推荐初步分类节点,再由具备药学、医学专业背景的标注专家进行人工审核判定,确保企业分类结果与产业实际情况完全匹配。最后同步完成特征抽取工作,从企业简介文本中系统性抽取核心产品、技术相关的关键术语,经去重、标准化处理后形成“正向词”特征串,作为分类标签的语义补充,进一步提升数据集的标注精度。

最终形成的结构化数据集以“文本-标签”为基本单元,每条数据均包含脱敏后的企业描述文本,以及经人工校验的一至四级完整分类标签、细粒度产品特征词与产业标签,全面覆盖化学药、中药等主流药品类型,融合了监管、医保、临床等多元分类视角,是少有的可直接用于医药产业链分析、药品生产企业智能分类、区域医药产业竞争力评估等多场景模型训练与评估的高质量专用数据集。

从应用价值来看,该数据集可覆盖政务、产业、监管三大核心场景:在产业布局与政策制定领域,可辅助政府及行业管理部门从NMPA分类、基本药物目录、医保目录等多维度,精准分析区域医药企业的研发布局、生产能力与产品结构,为地方医药产业集群规划、招标采购政策优化、紧缺药品产能调度提供数据支撑;在供应链与投资分析领域,可赋能医药流通企业、投资机构快速识别抗疟疾药、心血管药等特定治疗领域的原料药及制剂生产商,精准洞察创新药、仿制药、中成药等不同品类的市场竞争格局与研发动态,助力医药供应链安全建设与一级市场投资决策;在药品监管与追溯领域,可支持药品监管部门快速掌握辖区内企业的生产范围、剂型能力及质量体系认证情况,大幅提升靶向监管、风险预警与药品追溯的工作效率。

此次登记的完成,不仅为火石创造该数据集的后续流通、应用、权益保护提供了官方权属凭证,也为国内医药产业高价值数据资产的确权、资产化探索了可复制的路径,对于推动医药产业数字化转型、丰富AI训练数据集供给、完善数据要素市场垂直领域规则都具有积极的示范意义。

查看医药制品产业链结构文本训练数据

登记内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们