近年来,随着计算生物学与AI药物研发赛道的高速发展,虚拟细胞模拟、硅基表型筛选已经成为降低新药研发成本、缩短研发周期的核心技术方向,但行业长期缺乏覆盖多场景、统一口径的基准测试数据集,不同研究团队的模型性能难以横向对比、实验结果复现性不足,成为制约技术落地的共性痛点。
近日,基因泰克研究团队正式发布的大规模表型筛选预测基准数据集ASSAYBENCH,正是瞄准这一行业共性需求推出的公共数据产品。作为面向计算生物学与药物研发领域的专用基准数据集,ASSAYBENCH整合了1920个公开可用的CRISPR筛选实验,涵盖细胞适应性、化学响应、宿主-病原体互作等五大表型类别,每个实验平均评估约13,826个基因,底层数据全部来源于权威公共数据库BioGRID ORCS及近年发表的高质量学术文献,数据权威性与场景覆盖度均处于行业领先水平。
为了保障数据的可用性与一致性,研究团队在数据集构建过程中经过了多轮标准化处理:通过数据质量过滤剔除低可信度实验结果、合并重复实验减少数据冗余、新增表型方向标注明确数据对应场景,最终将每个筛选实验转化为可直接用于模型训练与测试的、基于文本描述的条件基因排序任务,大幅降低了下游使用者的数据处理成本。
从潜在应用场景来看,ASSAYBENCH数据集的开放将覆盖三大核心领域的刚需:一是计算生物学基础研究领域,可为虚拟细胞模拟模型提供统一的性能评估基准,解决此前不同研究团队数据集口径不统一、实验结果不可复现的行业痛点,推动基因功能解读、细胞扰动效应预测等基础研究的快速迭代;二是药物研发领域,可支撑表型筛选的硅基预测模型训练,帮助研发团队在早期阶段快速识别潜在有效靶点,大幅降低湿实验的投入成本与试错风险,尤其其中覆盖的宿主-病原体互作表型数据,也可为抗病毒、抗感染类药物的靶点发现提供数据支撑;三是生物大模型研发领域,可为大语言模型在生物扰动预测、基因功能解读等场景的性能优化提供标准化测试平台,推动通用生物大模型向产业落地场景迭代。
作为生命科学领域高价值的公共数据资产,ASSAYBENCH数据集的开放发布,也是全球生命科学数据要素流通共享的典型实践,通过标准化的基准数据开放,能够有效降低全行业的研发门槛,推动AI+生物医药创新生态的快速发展。该数据集主要应用于计算生物学和药物发现领域,致力于解决表型筛选的硅基预测问题,为构建虚拟细胞模型和优化大语言模型在生物扰动预测中的表现提供标准化测试平台。
首页 / 开源数据市场 / 正文
基因泰克发布ASSAYBENCH基准数据集 填补虚拟细胞模拟与表型筛选标准化测试空白
五号数据雷达开源数据市场2026-05-13 04:5225
跨国生物医药巨头基因泰克研究团队于2026年5月12日在学术预印本平台arXiv首发大规模表型筛选预测基准数据集ASSAYBENCH,该数据集整合1920组CRISPR筛选实验数据,可为计算生物学研究、药物早期研发、生物大模型性能优化提供标准化评估底座。

社区讨论
近期热门




_1769672084863.jpg)