当前我国数据要素市场化建设正进入垂直领域落地的关键阶段,医药作为兼具高数据价值密度与强合规要求的特殊领域,AI训练类数据的权属界定、合规流通长期以来是行业共性痛点。作为国内率先上线的省级数据知识产权登记服务载体,浙江省数据知识产权登记平台承担着数据权属存证、合规公示、流通背书等核心职能,其出具的登记证明可作为后续数据交易、质押融资、维权举证的官方依据,为高价值数据要素的市场化流转打通了基础环节。
2026年5月29日,国内医药产业数字化服务商火石创造旗下的化学制剂产业链结构文本训练数据,正式在该平台完成数据知识产权登记,成为医药垂直领域为数不多的完成标准化确权的AI训练专用数据集。据介绍,本数据集专门服务于化学制剂产业链智能分类与治疗领域图谱构建模型的训练与开发,通过关联企业文本与治疗类别标签,可为医药产业研究与市场监管提供标准化数据工具,其核心应用场景覆盖三大方向:一是治疗领域市场分析,可辅助医药研究机构与企业市场部门,分析不同治疗领域的药品生产企业分布、产品剂型结构与区域集中度,洞察细分赛道市场机会,优化管线布局决策;二是供应链与代工合作匹配,可赋能药品上市许可持有人(MAH)或流通企业,精准识别具备特定剂型生产能力或原料药生产优势的潜在合作伙伴,降低委托生产与采购环节的信息差,优化供应链韧性;三是产业政策与投资研究,可支持政府部门与投资机构,研判地区在特色治疗领域的研发制造能力,为产业扶持政策制定、招商引资与前沿技术跟踪提供数据支撑。
为保障数据的合规性与专业性,该数据集在加工全流程设置了多重标准管控:在加工前,所有原始数据已完成严格的匿名化与去标识化处理,原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,完全符合隐私保护与数据安全相关法规要求,为模型训练提供了洁净、可靠的输入基础。
数据处理环节严格遵循“体系先行、业务匹配、特征抽取”的核心规则,形成了覆盖分类框架构建到标签生成的全闭环流程:首先,依据世界卫生组织(WHO)药物解剖学、治疗学及化学分类法(ATC)及国家药品分类标准,预先定义了以“化学制剂”为一级节点,按治疗领域划分二级节点(如呼吸系统用药、消化道及代谢用药),并进一步细分为具体药物类别(三级节点,如咳嗽和感冒用药、镇痛药)的树状分类体系,采用国际通行的药学分类框架确保数据的通用性与专业性;其次采用“自动化规则匹配与人工校验相结合”的标注策略,依托Spark大数据处理框架对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的医药产业语义规则库自动推荐初步分类节点,再由具备药学专业背景的标注专家进行审核与最终判定,确保企业分类的精准性;最后同步完成特征抽取,从企业简介文本中系统性抽取代表其核心产品、剂型、成分与生产特性的关键术语,经过去重与标准化格式化后组合成“正向词”特征串,归纳生成对应的“产业标签”,作为分类标签的精准语义补充。
加工完成后的数据集为结构化的“文本-标签”对形式,每条数据均包含脱敏处理后的原始企业描述文本,以及经人工校验的一至三级完整分类标签、高度细化的产品与技术特征词与产业标签,全面覆盖呼吸、消化、心血管、抗感染、神经、妇科等主要治疗领域的化学药品制剂生产企业,剂型涵盖注射剂、口服固体制剂、外用制剂及中药提取物等多种类型,形成分类体系专业、治疗领域明确、特征维度丰富的专用数据集,可直接用于医药产业图谱构建、治疗领域企业画像、委托生产伙伴识别等模型的训练与评估。





_1769672084863.jpg)