随着国内美妆产业研发向天然、功效方向升级,以及生物医药领域天然产物研发需求的快速增长,高可信度的植物成分-生物靶点关联数据已经成为研发端的核心生产要素之一。作为广东省数据要素市场化配置改革的重要基础设施,广东省数据知识产权存证登记平台主要面向各类市场主体提供数据知识产权存证、登记、公示、权益核验等公共服务,通过规范化的登记流程明确数据权益归属,为后续数据流通交易、授权应用、侵权维权提供合规依据,是国内较早落地的数据知识产权公共服务载体。
2026年4月29日,佛山市康伲爱伦生物技术有限公司旗下的中国化妆品用植物原料成分生物信息数据,正式在该平台完成知识产权存证登记,成为美妆原料研发领域完成官方合规存证的生物信息类数据集代表案例。
据登记信息显示,本次登记的数据集为植物天然产物成分与生物靶点关联数据库,核心价值在于系统化收录化学成分与蛋白质靶点之间的调控关系及置信度评估,为天然产物活性筛选与药物靶点发现提供标准化的结构化数据支撑。该数据集采用矩阵宽表形式存储:行对应植物成分的英文标准名称,列对应已验证的蛋白质靶点名称,交叉单元格数值为综合多维度文献证据计算得出的关联置信度得分,取值范围为0.00至100.00,得分越高代表成分与靶点的调控关联可信度越高。
在数据生产环节,该数据集的原始数据全部采集自国内外公开发表的权威学术文献,研发团队采用SciSpacy生物医学NLP模型自动识别文献摘要中的蛋白质实体,通过预定义的标准化映射表完成实体名称的统一校准,再基于正则表达式匹配调控关键词、过滤否定表述,最终统计得到句子级的调控频次。最终的置信度得分综合了证据质量权重、数量效应非线性奖励、方向一致性及混合惩罚、对数调节项多个维度计算得出,全部数据处理步骤均固化于自动化脚本,全链路可追溯、可复现,有效保障了数据集的可信度与稳定性。
从应用价值来看,该数据集除了可直接为天然产物活性筛选、药物靶点发现等生物医药研发场景提供数据参考外,还可广泛应用于功效性化妆品原料研发、植物原料功效验证、中药现代化作用机制研究、美妆原料合规申报支撑等多个领域。例如美妆企业可通过该数据集快速筛选对应抗衰、美白、舒缓等功效靶点的高潜力植物成分,大幅降低前期研发的试错成本,缩短新品研发周期;科研机构也可依托该数据集开展植物成分作用机制的基础研究,为后续成果转化提供数据支撑。
本次登记的完成,也为美妆、生物医药研发领域的非公共数据知识产权规范化管理提供了可参考的样本,有助于推动研发类数据资产的权益确权与合规流通,进一步激活数据要素在生命健康、美妆个护等实体经济领域的价值释放。





_1769672084863.jpg)