作为全国首个国家级大数据综合试验区,贵州近年来在数据要素市场化配置领域的探索始终走在全国前列,其中贵州省数据知识产权登记平台正是当地为破解数据资产确权难、流通难问题打造的核心基础设施,承担着数据知识产权合规登记、权益存证、流通前置审核等职能,为各类合规数据的研发、共享、交易提供官方权益保障。在医疗健康数据领域,由于涉及个人隐私保护、知识产权界定等多重问题,组学类科研数据的合规流通一直是行业痛点,此次牙龈RNA高通量测序数据集的成功登记,为医疗科研数据的确权与应用提供了典型样本。
2026年6月30日,由陈彬研发的牙龈RNA高通量测序数据集正式在贵州省数据知识产权登记平台完成知识产权登记,该数据集主要面向口腔转录组学、牙周病生物标志物研究两大核心领域开放应用。
陈彬本次登记的数据知识产权牙龈 RNA 高通量测序数据集,数据清洗:用FastQC/fastp去除低质量读段(Q30<80%)、接头污染及rRNA序列;剔除比对率<70%或管家基因表达异常的低质量样本;过滤未注释基因及在<3个样本中表达的基因,批量去除临床关键信息缺失记录。 标准化与注释:原始Reads Count统一比对至GRCh38/hg38参考基因组,基因ID映射至HGNC/Ensembl标准注释,表达量换算为TPM/FPKM并做log2归一化,用ComBat/Harmony校正批次效应;临床分组(健康/牙龈炎/牙周炎)按受控词表编码。 数据集构建:将样本临床特征表与基因表达矩阵按匿名化样本ID关联,整理为结构化表达谱宽表(CSV/TSV格式),对患者身份信息做不可逆去标识化处理形成最终数据集
据了解,该数据集经过多轮严格质控与标准化处理,同时完成了患者信息的不可逆去标识化,既满足《数据安全法》《个人信息保护法》对于医疗数据的隐私保护要求,也具备较高的科研适配性,后续可广泛应用于多个场景:一是口腔转录组学基础研究,为解析牙龈组织在健康、牙龈炎、牙周炎不同状态下的基因表达差异提供大样本基础数据支撑,大幅降低相关科研项目的原始数据采集成本;二是牙周病生物标志物筛选,通过对比不同病程阶段的基因表达特征,助力研发牙周病早筛、病程监测、预后评估的分子标志物,填补国内牙周病早诊工具的研发缺口;三是口腔医疗临床转化研究,可用于训练牙周病智能辅助诊断模型,也可为牙周病靶向药物研发提供靶点验证的基础数据,加速口腔疾病的诊疗技术落地。
登记内容:
此次登记的落地,一方面从知识产权层面保护了数据集研发者的合法权益,为后续数据集的合规共享、市场化应用扫清了权属障碍;另一方面也进一步丰富了贵州的医疗健康数据要素资产池,对于推动组学数据合规流通、加速口腔疾病诊疗技术创新、完善数据知识产权登记的医疗场景应用标准都具有重要的参考意义,也为全国其他地区的医疗科研数据确权登记提供了可复制的实践路径。





_1769672084863.jpg)