five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 数据知识产权登记 / 正文

仿制药产业链结构文本训练数据完成浙江数据知识产权登记 为医药产业AI应用提供核心支撑

五号数据雷达数据知识产权登记2026-05-30 04:372
2026年5月29日,火石创造科技有限公司旗下仿制药产业链结构文本训练数据正式在浙江省数据知识产权登记平台完成知识产权登记,该合规标注的专用数据集可直接应用于仿制药产业链分析、医药文本分类等领域的AI模型训练,为医药产业全链路数字化升级提供标准化数据工具。

随着我国数据要素市场化配置改革持续推进,专业领域数据集的知识产权确权已成为数据合规流通、产业价值释放的核心前提。作为国内率先落地的省级数据知识产权公共服务载体,浙江省数据知识产权登记平台承担着数据资源存证、权益确认、流通溯源等核心职能,是地方探索数据要素价值转化路径的重要基础设施。2026年5月29日,火石创造科技有限公司旗下的仿制药产业链结构文本训练数据正式在该平台完成知识产权登记,成为医药产业领域专业训练数据确权的最新落地成果。

仿制药是我国医药工业供给体系的核心组成部分,其产业链覆盖上游原材料、包材、制药设备,中游研发生产等多个分散环节,长期以来产业链信息不对称、分类标注不统一等问题,制约了政府产业治理、企业供应链管理、投研机构分析的效率。与此同时,AI大模型在医药产业分析场景的落地,高度依赖具备行业专业性、合规性的标注训练语料,本次完成登记的数据集正是瞄准这一行业需求打造的专用训练数据资源,服务于仿制药产业链智能分类与产业图谱构建模型的训练与开发,通过关联企业文本与药物研发生产标签,为各类医药产业分析场景提供核心数据支撑。

从数据合规性来看,本次登记的数据集在加工前已完成严格的匿名化与去标识化处理:原始企业名称被统一替换为不可逆的规范标识符,所有个人及商业敏感信息被彻底移除,完全符合《数据安全法》《个人信息保护法》及医药行业数据监管要求,为模型训练提供了洁净、可靠的输入基础。

在数据加工流程上,研发团队严格遵循 “体系先行、业务匹配、特征抽取” 的核心规则,形成了全链路标准化处理流程:1. 分类框架搭建:依据国家《药品管理法》《化学药品注册分类》及产业共识,预先定义了以“仿制药”为一级节点,按产业链位置划分为“上游:原材料、包材及制药设备”和“中游:仿制药研发及制造”两个二级节点,并进一步参照药理治疗领域细分为“心血管系统用药”“系统用抗感染药”“原料药”等三级节点及其具体药物类型(四级节点)的专业树状分类体系,确保分类标准的通用性与权威性。2. 业务匹配:采用“自动化规则匹配与人工校验相结合”的策略,首先依托Spark大数据处理框架,对企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的涵盖各类药物通用名、药理分类、原料药、GMP等内容的医药产业语义规则库,自动计算并推荐初步分类节点;随后由具备药学或生物医药背景的标注专家进行审核与最终判定,确保企业精准归入对应的产业链环节与治疗领域。3. 特征抽取:在完成业务匹配的同时,从同一段企业简介文本中,抽取与药品研发、生产、原料相关的关键名词与核心业务片段,经组合去重,形成“正向词”特征串,并归纳其所属的“产业标签”,共同作为对多级分类节点的语义补充与产业属性标注。

加工后的数据集为一条条结构化的“文本-标签”数据,每条数据均包含经过脱敏处理的原始企业描述文本,以及与之对应、经人工校验的完整分类标签(一至四级节点)、反映业务关键词的特征词(正向词)与产业标签,全面覆盖了仿制药产业从原料药、药用辅料到各类化学药品制剂研发制造的核心环节,形成了分类体系专业、产业链条清晰、可直接用于仿制药企业定位、研发动态追踪及供应链分析等模型训练与评估的专用数据集。

从应用场景来看,该数据集可落地的典型方向覆盖产业全参与方:在研发与投研端,可辅助医药企业、投资机构追踪在特定治疗领域进行仿制药研发、原料药生产的企业布局,分析研发热点与竞争格局,减少重复研发投入,提升投研决策效率;在企业供应链管理端,可赋能制药企业识别上游药用原料的合格供应商,并关联其GMP认证等信息,支持供应链安全排查与合规审计,降低供应链断供风险;在产业治理端,可支持政府与产业园区分析区域内仿制药产业在上中游环节的集聚情况、技术实力与产业链完整性,为制定产业扶持政策、精准招商提供数据依据。

本次数据知识产权登记的完成,不仅明确了该数据集的权益归属,为后续的流通交易、授权使用提供了合规基础,也为医药领域专业训练数据的确权、价值转化提供了可复制的参考样本,进一步丰富了浙江数据要素市场的专业数据供给,助力生物医药产业数字化转型与数字经济高质量发展。

查看仿制药产业链结构文本训练数据

登记内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们