five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

北京智源发布OPI-Struc多模态蛋白质数据集 登陆HuggingFace赋能生命科学AI研发

五号数据雷达开源数据市场2026-05-12 02:4326
北京智源人工智能研究院于2026年5月11日在HuggingFace首发OPI-Struc多模态蛋白质指令微调数据集,该数据集首次整合蛋白质3D结构与文本指令信息,可支撑蛋白质功能预测、酶催化反应识别等多类生物信息学研究,填补了生命科学大模型训练的细分数据缺口。

近年来,AI与生命科学的交叉融合已成为全球科技研发的核心热门赛道,从AlphaFold实现蛋白质结构预测突破到多模态大模型在药物研发领域的落地探索,高质量的标注数据集始终是制约垂直领域大模型性能提升的核心瓶颈之一。尤其是同时覆盖蛋白质序列、3D结构与对应功能标注的多模态指令微调数据,此前行业内供给极为稀缺,难以支撑大模型实现蛋白质相关任务的指令跟随能力。作为国内顶尖的人工智能前沿研究机构,北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,简称BAAI)本次发布的OPI-Struc数据集,正是瞄准这一行业痛点推出的核心基础资源。

OPI-Struc全称为“用于结构的开放蛋白质指令”,是一个专门为智源STELLA项目设计的多模态指令微调数据集。它在原有OPI范式基础上完成了核心升级,通过整合蛋白质3D结构信息与文本指令,使得大语言模型能够同时处理基于蛋白质序列和结构模态的多元任务。数据集重点覆盖两大核心蛋白质研究场景:功能描述预测(FP)和酶催化反应预测(EP)。其中功能描述预测任务要求从蛋白质3D结构中推导其生物学功能,数据集同步提供自由文本问答(FTQA)和多项选择问答(MCQA)两种标注格式,可适配不同模型的训练与评估需求;酶催化反应预测任务则要求从蛋白质3D结构中识别酶的名称或EC编号,可为合成生物学、酶工程领域的研发提供算法支撑。

为保障数据的权威性与准确性,数据集的构建全部基于全球公认的权威生物信息学资源:FP任务的蛋白质条目来源于UniProtKB/Swiss-Prot数据库(2022_04版),并遵循Prot2Text的标准数据划分规则,其对应的3D结构来自AlphaFold蛋白质结构数据库;EP任务的蛋白质条目来源于国际酶委员会官方数据集,其3D结构来自RCSB PDB蛋白质结构数据库。每个数据样本都被格式化为符合指令微调规范的多轮对话形式,其中包含一个特殊的 `` 标记,用于指示蛋白质结构嵌入应插入的位置,大幅降低了研究人员的数据预处理成本。

从规模来看,数据集总容量达351183个训练样本和40993个测试样本,并提供了精细化的子集划分统计:FP_FTQA训练集包含248315个样本及49663个增强样本;FP_MCQA训练集包含24000个样本;EP训练集包含29205个样本。值得关注的是,测试集设置了多个适配真实科研场景的评估维度:例如用于评估模型在未见过的蛋白质上零样本泛化能力的时间分布外测试集(Function_test_FTQA_v2401),以及用于评估模型对不完整结构鲁棒性的结构退化测试集(Function_test_FTQA_trunc90),能够更为全面地验证大模型的实际应用潜力。

目前本仓库提供数据集的注释JSON文件,这些文件按当前主流的蛋白质编码器(ESM3、Prot2Text、SaProt)分类组织,方便不同技术栈的研究人员直接调用。由于预计算的蛋白质结构嵌入文件体积庞大,并未包含在内,用户需要根据提供的指南,在本地下载原始蛋白质结构文件并使用STELLA项目中的脚本生成相应的嵌入。从应用场景来看,该数据集可广泛适用于蛋白质功能注释、酶分类、多模态大语言模型在生命科学领域的训练与评估等任务,能够有效降低相关研究的数据获取成本,推动算法性能的标准化评估。作为国内首个公开的整合3D结构信息的蛋白质多模态指令微调数据集,OPI-Struc的发布不仅为生物信息学、计算生物学领域的研究提供了核心数据支撑,也为数据要素在生命科学垂直领域的落地应用提供了典型样本,有助于加快AI技术在新药研发、罕见病诊疗、合成生物学制造等重点赛道的落地进程。

查看OPI-Struc

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们