首页 / 开源数据市场 / 正文

北京大学发布QUESTBENCH人文社科基准数据集赋能AI研究评估与文科教育数字化

五号数据雷达开源数据市场2026-05-22 05:1916

2026年5月21日，北京大学师生团队研发的人文社科领域专业基准数据集QUESTBENCH正式在arXiv平台首发，该数据集填补了人文社科领域AI深度研究能力评测的标准空白，可广泛应用于AI研究系统性能评估、人文社科AI教育体系建设等场景。

随着生成式AI在学术研究、高等教育场景的落地应用加速，AI辅助人文社科研究、课程作业写作、文献梳理等场景的需求持续攀升，但长期以来，人文社科领域缺乏适配专业研究逻辑的标准化AI评测基准：通用类AI评测数据集多偏向客观知识问答，无法覆盖人文社科研究所需的多源文献溯源、证据链构建、领域知识适配等核心要求，既导致AI深度研究系统的性能瓶颈难以被精准识别，也给高校文科教育中规范AI工具使用、培养学生学术问责能力带来了标准缺失的痛点。

2026年5月21日，由北京大学师生构建的课程基准数据集QUESTBENCH正式在arXiv平台首发，为上述行业痛点提供了标准化解决方案。据介绍，该数据集覆盖人文社科14个专业领域，包含256条经过精心设计的专家级深度研究问题，所有问题均对应人文社科真实研究场景的需求，要求回答者结合领域知识完成查询逻辑构建、多源文档导航、交叉证据判断等完整研究流程，最大程度还原了人文社科研究的真实工作路径。为保障数据集的专业度与科学性，QUESTBENCH的创建过程融合了学生学科专业知识输入、对抗性同行评审及多轮质量控制机制，从问题设计到答案评估逻辑均符合人文社科的学术规范要求，核心目标是通过基准构建与教学落地，培养学生对AI辅助知识工作的问责能力，从源头规避AI辅助研究中的学术不端风险。

从行业应用价值来看，QUESTBENCH可直接用于评估各类深度研究系统的性能瓶颈，精准揭示AI在专业领域查询、多源信息导航、可信答案提取等环节的隐藏缺陷，为垂直领域学术大模型的迭代优化提供标准化的评测依据。在教育场景下，该数据集也可为高校人文社科领域的AI教育提供实证分析案例，帮助师生建立AI辅助研究的规范意识，完善文科数字化教学的评估体系。

查看QUESTBENCH

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

北京大学发布QUESTBENCH人文社科基准数据集 赋能AI研究评估与文科教育数字化

Dataset card内容：

Files and versions内容：

社区讨论

北京大学发布QUESTBENCH人文社科基准数据集赋能AI研究评估与文科教育数字化