首页 / 开源数据市场 / 正文

Anthropic首发生物领域基准数据集BioMysteryBench-preview 填补大模型复杂问题解决能力评测空白

五号数据雷达开源数据市场2026-05-01 03:5322

AI大模型厂商Anthropic于2026年4月29日在Hugging Face平台首发BioMysteryBench-preview基准数据集，作为其生物领域问题解决能力评测基准的公开样本，可用于大模型垂直领域推理性能评估，为生命科学AI应用的性能验证提供标准化标尺。

近年来，大模型在生命科学领域的落地进程持续加快，从蛋白质结构预测、药物靶点筛选到临床辅助决策，AI已成为推动生物科研效率提升的核心工具，但行业长期缺乏面向生物垂直场景、聚焦复杂问题解决能力的标准化评测基准，难以对不同大模型的垂直领域性能进行公平、统一的验证。2026年4月29日，AI大模型厂商Anthropic正式在Hugging Face平台发布BioMysteryBench-preview数据集，作为其全新生物领域基准测试的公开样本，面向全行业开放试用。

据公开信息显示，本次发布的预览版数据集共包含5个生物领域测试问题，整体分为两大模块：一是问题描述文件，支持csv、parquet两种格式，每行对应一个独立测试任务，涵盖问题唯一标识符（id）、任务提示（question）、包含预期答案的评分标准（answer_rubric）、评测过程中允许模型访问的网络域范围（allowed_domains）、以及该问题是否可被人类科研人员解决的标记（human_solvable）五大核心字段，其中允许访问网络域设置、人类可解性标记两大设计，可最大程度模拟真实生物科研场景下的资源权限与能力对齐要求，提升评测结果的参考价值；二是对应每个问题的原始数据文件，支持整体压缩包（data.zip）或单问题压缩包（data/.zip）两种下载方式，用户解压至工作目录即可调用完成评测流程。该数据集目前主要适用于评估模型在生物领域问题解决任务上的性能。

作为聚焦生物领域的专项评测数据集，BioMysteryBench-preview可广泛应用于多个行业场景：对大模型研发厂商而言，可将其作为生物垂直大模型迭代过程中的核心性能测试工具，精准定位模型在数据解读、逻辑推理、问题推导等维度的短板，加快模型性能优化效率；对生命科学科研机构、药企而言，可通过该基准对不同AI辅助科研工具的能力进行横向对比，筛选匹配自身需求的产品，降低工具选型成本；对AI监管与评测机构而言，该数据集也可作为生物领域AI服务上线前的性能验证参考，助力提升垂直领域AI应用的可靠性。目前Anthropic仅开放了该基准测试的预览样本，完整版本的BioMysteryBench基准测试需向官方申请访问权限。从行业发展维度来看，垂直领域的高质量评测数据集是AI产业发展的核心公共数据资源，本次Anthropic发布的专项基准数据集，填补了生物领域复杂问题解决能力评测的标准空白，后续若在行业内普及应用，有望成为全球生物大模型评测的通用标尺，进一步推动生命科学AI的规范化落地，为数字技术赋能生物医疗产业发展提供基础支撑。

查看BioMysteryBench-preview

Dataset card内容：

Files and versions内容：

社区讨论

近期热门