随着AI制药技术的快速落地,高质量细分领域训练数据集已成为医药研发数字化升级的核心生产要素,而造影剂作为特殊的大分子药物类别,长期面临通用药物预测工具适配性差、研发效率低的行业痛点。作为浙江省推进数据要素市场化配置的核心基础设施,浙江省数据知识产权登记平台可为市场主体提供数据知识产权权属登记、存证、流通支撑等服务,为数据资产的合规交易、权益保护、质押融资等场景提供官方凭证,本次医药研发类专业数据集的登记,是该平台在生物医药细分领域的典型落地成果。
2026年5月19日,浙江司太立制药股份有限公司提交的「钆布醇结构的小分子渗透性预测评价数据」正式在上述平台完成登记。据了解,造影剂普遍具有分子量大(通常在500~1500 g/mol区间)、极性表面积高(TPSA普遍超过140 Ų)的特性,理化性质远超传统Lipinski五规则的适用范围,导致现有通用ADMET预测工具对此类分子的渗透性预测精度严重不足。而细胞膜渗透性是限制造影剂口服吸收及组织分布的核心指标,现有公开Caco-2渗透性数据库对造影剂母核结构及其药典法定杂质的覆盖极为有限,研发团队在早期筛选阶段只能依赖耗时耗力的体外Caco-2细胞实验逐一评估,大幅拉长了造影剂的研发周期、推高了研发成本。
本次登记的数据集以公开Caco-2渗透性数据集(caco2_wang.csv)为基础,专项补充纳入钆布醇母核原料药及主要国家药典收载的法定杂质渗透性数据,构建面向该特定化学空间的专属训练数据集,通过图卷积神经网络(GCN)训练预测模型,实现对钆布醇结构域内候选分子渗透性的高精度预测。具体来看,该数据集的构建覆盖数据收集与特征加工、特征工程与模型构建、分类判定规则制定全流程:首先在公开数据集基础上补充钆布醇母核及各国药典收载的法定杂质(含大环配体开环降解产物、配位中间体等)的化合物名称、分子结构与实验logPapp值,通过RDKit计算并记录分子量、脂水分配系数、极性表面积等7项核心理化参数;随后通过图卷积网络提取分子特征,完成模型训练,针对钆布醇结构域的大环刚性骨架、多氮配位节点特性独立配置模型权重,最终实现对新分子渗透性的量化预测,并按照预测LogPapp值将渗透性分为高、中、低三类,同时标注分子的极性、分子量、亲水性特征,快速定位渗透性受限的核心原因,指导后续结构优化方向。
该预测评价数据的应用价值覆盖医药研发全流程:在早期研发阶段可直接用于候选化合物虚拟筛选与结构优化,无需在前期开展大量体外实验即可快速淘汰渗透性不达标的候选分子,据行业普遍测算可将早期筛选效率提升60%以上,大幅降低研发投入;在生产阶段可用于合成杂质渗透性风险评估,指导生产工艺优化,提前排除跨膜风险较高的杂质路径,保障药品质量安全;在新药申报阶段可作为非临床研究资料的补充,辅助监管部门开展审评工作。此外,相关模型及数据也可通过合规授权的方式开放给其他医学影像或生物材料企业使用,放大数据资产的复用价值,填补现有通用数据集在造影剂专属结构域的预测空白。
本次登记的落地,既为浙江司太立的研发数据资产提供了官方权属证明,保护了企业的研发投入成果,也为国内生物医药领域的专业数据资产合规登记、流通提供了可参考的样本。随着国内数据要素市场的不断完善,这类垂直赛道高质量数据集的合规流通,将成为推动AI制药等新兴技术落地的核心动力,助力医药产业数字化转型降本提效。





_1769672084863.jpg)