five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

MIT LAMM首发NPPE-2蛋白质二级结构标注数据集 赋能生物信息学与AI生命科学研发

五号数据雷达开源数据市场2026-05-26 04:269
麻省理工学院原子与分子力学实验室(LAMM)于2026年5月25日在HuggingFace平台首发protein-secondary-structure-nppe2(NPPE-2)蛋白质二级结构预测数据集,该数据集原为印度理工学院马德拉斯分校深度学习与生成AI课程的蛋白质结构预测竞赛设计,可广泛支撑蛋白质结构预测、生物信息学分类等领域的算法研发与验证。

随着AlphaFold等AI模型将蛋白质结构预测精度推向实用化水平,高质量、标注规范的残基级蛋白质结构数据集,已成为计算生物学、AI生命科学领域最核心的研发基础资源之一。作为MIT聚焦原子、分子尺度力学规律与跨学科应用研究的顶尖实验室,LAMM长期深耕计算生物、生物材料、分子模拟等交叉领域,其发布的公开数据集通常具备标注精度高、场景适配性强的特点,已成为全球相关领域研究的重要参考基准。本次LAMM发布的protein-secondary-structure-nppe2(又称NPPE-2蛋白质二级结构预测数据集),最初为印度理工学院马德拉斯分校深度学习与生成AI课程的蛋白质二级结构预测竞赛设计,核心任务是支撑研发者在残基水平完成蛋白质二级结构的预测任务。

该数据集采用行业通用的两类分类标注体系:第一类为八态分类(Q8/sst8),基于DSSP符号体系,涵盖H(α螺旋)、C(卷曲/环)、E(β链)、T(转角)、S(弯曲)、G(3-10螺旋)、B(β桥)和I(π螺旋)8类结构标签;第二类为三态分类(Q3/sst3),将八态标签进一步聚合为C(卷曲,包含C、T、S)、H(螺旋,包含H、G、I)和E(链,包含E、B)3类,适配不同精度需求的算法训练场景,数据集的官方评估指标为Q8和Q3宏F1分数的调和平均数。

从数据体量来看,NPPE-2数据集分为训练集与测试集两部分,其中训练集包含7262个蛋白质序列,覆盖1763921个残基;测试集包含1816个序列,暂未公开标签,用于竞赛与算法评测的盲测场景。数据集覆盖的蛋白质序列长度范围为20至1632个残基,平均长度为242.9个残基,覆盖了绝大多数常规功能蛋白的长度区间。从标签分布来看,Q8分类中H(α螺旋)占比最高达31.6%,其次是C(24.2%)和E(21.0%);Q3分类中C(卷曲)占比最高达42.6%,其次是H(螺旋,35.4%)和E(链,22.1%),标签分布符合天然蛋白质的结构分布规律,训练数据的代表性较强。

目前该数据集以CSV文件形式开放下载,训练集文件包含id(唯一序列标识符)、seq(由20种标准氨基酸组成的序列)、sst8(Q8标签)和sst3(Q3标签)四列;测试集文件包含id和seq两列,方便研发者快速接入训练流程。从应用价值来看,NPPE-2不仅可用于蛋白质二级结构预测竞赛的算法比拼,还可广泛适配各类标记分类任务:在基础研究层面,可支撑蛋白质结构预测算法的迭代优化、不同蛋白质功能域的识别、突变体结构稳定性预测等生物信息学研究;在产业应用层面,可作为训练数据支撑AI辅助靶点结构解析、多肽药物分子设计、酶工程改造等生命科学研发场景,降低相关领域的训练数据获取门槛,为全球计算生物学领域的跨机构算法评测提供了统一的公开基准。

查看protein-secondary-structure-nppe2

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们