five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 数据知识产权登记 / 正文

浙江司太立碘普罗胺小分子渗透性预测数据集完成省级数据知识产权登记 填补造影剂ADMET预测空白

五号数据雷达数据知识产权登记2026-05-21 04:526
2026年5月20日,浙江司太立制药股份有限公司旗下碘普罗胺结构的小分子渗透性预测评价数据正式完成浙江省数据知识产权登记平台确权登记,该数据集解决了通用ADMET预测工具对造影剂类分子预测精度不足的行业痛点,可应用于造影剂研发筛选、图卷积神经网络药物ADMET模型训练等领域,为医药研发类数据要素的合规流通提供了典型样本。

随着全国数据要素市场建设提速,医药研发领域的高价值实验数据作为具有强产业属性的核心数据资产,其确权、流通与价值释放正成为行业关注的焦点。作为国内造影剂赛道的核心企业,浙江司太立制药股份有限公司于近日公布一项重要进展:其自主构建的碘普罗胺结构的小分子渗透性预测评价数据,已于2026年5月20日正式通过浙江省数据知识产权登记平台审核,完成数据知识产权确权登记。

作为全国首批上线的省级数据知识产权登记服务载体,浙江省数据知识产权登记平台主要承担数据权属存证、流通合规核验、权益保护支撑等核心职能,经平台登记的数据知识产权可作为权益凭证,用于数据交易、授权运营、质押融资、知识产权维权等多个场景,是国内数据要素市场化配置的重要基础设施。本次登记也标志着该数据集的权属归属、合规性、实用价值获得官方认可,为后续的市场化应用扫清了权属障碍。

本次登记的数据集瞄准造影剂研发领域的长期痛点。据行业公开信息显示,造影剂是医学影像诊疗环节的核心耗材之一,其中碘普罗胺作为应用最广泛的非离子型碘造影剂,广泛用于CT、血管造影等临床场景,其迭代升级和杂质安全性管控是行业研发的重点方向。但造影剂分子普遍具有分子量500~1500 g/mol、极性表面积(TPSA)普遍超过140 Ų的特征,整体理化性质远超传统药物研发通用的Lipinski五规则适用范围,导致市面上通用的ADMET(吸收、分布、代谢、排泄、毒性)预测工具对该类分子的渗透性预测精度严重不足。而细胞膜渗透性是限制造影剂口服吸收及组织分布的核心指标,现有公开的Caco-2渗透性数据库对造影剂母核结构及其药典法定杂质的覆盖极为有限,研发团队在早期筛选阶段只能依赖耗时耗力的体外Caco-2细胞实验逐一评估,单批次实验周期长达数周,研发成本高、效率低。

浙江司太立本次登记的碘普罗胺结构的小分子渗透性预测评价数据,正是针对上述行业痛点打造的专属训练数据集。该数据集以公开Caco-2渗透性数据集(caco2_wang.csv)为基础,专项补充纳入碘普罗胺母核原料药及主要国家药典收载的法定杂质渗透性数据,构建面向该特定化学空间的专属训练数据集,并基于该数据集训练图卷积神经网络(GCN)预测模型,实现对碘普罗胺结构域内候选分子渗透性的高精度预测。

据登记信息披露,该数据集的构建流程分为数据收集与特征加工、特征工程与模型构建、分类判定规则制定四大环节:
1.数据收集与特征加工:以公开Caco-2渗透性数据集为基础,专项补充碘普罗胺母核及各国药典收载的法定杂质(含脱碘降解产物、碘代苯环酰胺水解中间体等)的化合物名称、分子结构(SMILES字符串)与实验logPapp值,该补充数据仅覆盖碘普罗胺碘代三碘苯环类化学空间,与线性开链型DTPA螯合物或大环型钆螯合物杂质空间不重叠。对每条SMILES通过RDKit计算MW(分子量)、LogP(脂水分配系数)、TPSA(极性表面积)、HBD(氢键供体数)、HBA(氢键受体数)、RotBonds(可旋转键数)、QED(类药性评分)七项理化参数并记录为数据字段。
2.特征工程与模型构建:(1)特征工程:通过DeepChem的ConvMolFeaturizer将SMILES转换为含原子特征向量和邻接列表的图结构数据作为输入X;以logPapp实验值(均值-标准差归一化)作为预测目标Y,按8:1:1划分训练/验证/测试集。(2)模型构建:图卷积网络含多层图卷积层提取局部化学环境特征及图池化层聚合全局分子特征;Dropout=0.2,训练50个epoch,Pearson R²为监控指标。碘普罗胺结构域图特征呈三碘苯环刚性核心、多羟基侧链节点,与线性开链型DTPA螯合物或大环型钆螯合物骨架在特征空间分布显著不同,需独立训练模型权重。(3)预测规则:权重固定后,新分子SMILES转图特征输入模型,经图卷积与全连接层非线性映射获取标准化预测值,再经归一化逆变换还原为预测LogPapp。
3.分类判定规则:预测LogPapp>-4.7标记为"高(High)",易穿透细胞膜,组织分布潜力较高;在[-5.2,-4.7]范围内标记为"中(Medium)",跨膜能力尚可,可能需辅以制剂优化;<-5.2标记为"低(Low)",难穿透生物膜,存在较高跨膜障碍。
4.备注字段规则:依据TPSA≥140Ų标记"高极性"、MW≥800g/mol标记"大分子"、LogP≤-3标记"强亲水",不满足条件不备注,全不满足标记"性质适中",多条件满足以";"分隔组合,用于快速定位渗透性受限的主要理化原因,指导结构优化方向。

从应用场景来看,该预测评价数据可直接用于碘普罗胺类造影剂的候选化合物虚拟筛选与结构优化,大幅降低早期研发阶段的实验成本、缩短研发周期;也可用于合成杂质渗透性风险评估,为药典杂质的安全性管控提供数据支撑,还可作为新药申报的辅助佐证材料,提高申报环节的评审效率。此外,相关模型及数据也可授权给其他医学影像制剂或生物材料企业使用,助力全行业研发效率提升,填补了现有通用数据集在造影剂专属结构域的预测空白。

行业分析人士指出,本次司太立的高价值医药研发数据完成省级知识产权登记,是医药领域数据要素确权流通的典型实践,既为企业自身的研发数据资产化、权益化提供了合规凭证,也为国内创新药研发领域的高价值数据流通、共享、价值释放提供了可参考的样本,对于推动医药产业数字化转型、加快数据要素在生物医药领域的落地应用具有积极意义。

查看碘普罗胺结构的小分子渗透性预测评价数据

登记内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们