five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 数据知识产权登记 / 正文

火石创造医药制品产业链结构文本训练数据完成浙江省数据知识产权登记 赋能医药产业多场景数字化应用

五号数据雷达数据知识产权登记2026-05-30 09:154
2026年5月29日,火石创造科技有限公司旗下医药制品产业链结构文本训练数据正式完成浙江省数据知识产权登记,该合规标注的专项训练数据集可广泛应用于医药产业链分析、药品企业智能分类等场景,为国内医药类产业数据要素的确权流通提供了参考样本。

随着国内数据要素市场化配置改革持续深化,高价值产业数据的知识产权确权、合规流通已成为各行业数字化转型的核心基础。作为国内率先落地的省级数据知识产权登记服务载体,浙江省数据知识产权登记平台承担着数据权属存证、合规核验、流通前置背书等核心职能,为各类数据资源入市交易、合法应用提供具备官方公信力的凭证支撑。2026年5月29日,火石创造科技有限公司旗下的医药制品产业链结构文本训练数据正式在该平台完成知识产权登记,成为国内少数完成合规确权的医药产业AI训练类专项数据集。
本次登记的数据集核心定位为医药产业链智能分析、产业图谱构建类AI模型的训练与开发底座,通过关联企业文本信息与药品分类、产品类型标签,为医药产业研究、行业监管、市场分析等领域提供标准化的核心数据工具,其典型应用场景覆盖三大方向:
一是产业布局与政策制定场景:可辅助政府及行业管理部门按NMPA分类、基本药物目录、医保目录等多维度,快速分析区域医药企业研发布局、生产能力与产品结构,为地方生物医药产业规划、药品招标采购、行业扶持政策优化提供数据支撑。
二是供应链与投资分析场景:可赋能医药流通企业、投资机构及研究机构,快速识别抗疟疾药、心血管药等特定治疗领域的原料药及制剂生产商,精准洞察创新药、仿制药、中成药等不同药品类别的市场竞争格局与研发动态,既可为突发公共卫生事件下的药品保供供应链调度提供支撑,也可为一级市场医药赛道投资标的挖掘、二级市场医药板块基本面分析提供数据参考。
三是药品监管与追溯场景:可支持药品监管部门按统一的药品分类体系,快速掌握辖区内企业生产范围、剂型能力及质量体系认证情况,提升靶向监管效率与风险预警能力,降低药品安全事件的发生概率。
为保障数据集的合规性与专业性,该数据集的加工全流程均遵循严格的规范要求:
在加工前阶段,数据集已完成严格的匿名化与去标识化处理,原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息均被彻底移除,完全符合《数据安全法》《个人信息保护法》及医药行业数据监管的相关要求,为模型训练提供了洁净、可靠的输入基础。
在数据处理环节,严格遵循 “体系先行、业务匹配、特征抽取” 的核心规则,形成了覆盖全流程的标准化加工体系:首先依据国家药品监督管理局(NMPA)药品分类、国家基本药物目录、国家医保药品目录等多个权威分类标准,预先构建了以“医药制品”为一级节点,融合三大分类维度的四级树状分类体系,向下逐级细化至化学药/中药等三级节点,以及原料药、中成药、创新药、医保药品等具体四级节点,为数据加工提供了统一的结构化框架;其次采用“自动化规则匹配与人工校验相结合”的策略,先依托Spark大数据处理框架对企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的医药产业语义规则库自动计算并推荐初步分类节点,再由具备药学或医学专业背景的标注专家进行审核与最终判定,确保企业被归入最贴切的产品类别与药品管理目录;最后在完成业务匹配的同时,从企业简介文本中系统性抽取代表其核心产品与技术的关键术语与名词性短语,经过去重与标准化格式化后组合成“正向词”特征串,作为对分类标签的语义补充。
加工完成后的数据集为一条条标准化的“文本-标签”结构化数据,每条数据均包含经过脱敏处理的原始企业描述文本,以及与之对应、经人工校验的完整四级分类标签、细粒度的产品特征词(正向词)与产业标签,内容全面覆盖化学药、中药等主要药品类型,融合了NMPA、基本药物、医保药物等多元分类视角,是一套分类体系专业、特征标注精准、可直接用于医药产业链分析、药品生产企业智能分类、区域医药产业竞争力评估等模型训练与评估的高质量专用数据集。

查看医药制品产业链结构文本训练数据

登记内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们