随着生成式AI在学术研究、高等教育场景的落地应用加速,AI辅助人文社科研究、课程作业写作、文献梳理等场景的需求持续攀升,但长期以来,人文社科领域缺乏适配专业研究逻辑的标准化AI评测基准:通用类AI评测数据集多偏向客观知识问答,无法覆盖人文社科研究所需的多源文献溯源、证据链构建、领域知识适配等核心要求,既导致AI深度研究系统的性能瓶颈难以被精准识别,也给高校文科教育中规范AI工具使用、培养学生学术问责能力带来了标准缺失的痛点。
2026年5月21日,由北京大学师生构建的课程基准数据集QUESTBENCH正式在arXiv平台首发,为上述行业痛点提供了标准化解决方案。据介绍,该数据集覆盖人文社科14个专业领域,包含256条经过精心设计的专家级深度研究问题,所有问题均对应人文社科真实研究场景的需求,要求回答者结合领域知识完成查询逻辑构建、多源文档导航、交叉证据判断等完整研究流程,最大程度还原了人文社科研究的真实工作路径。为保障数据集的专业度与科学性,QUESTBENCH的创建过程融合了学生学科专业知识输入、对抗性同行评审及多轮质量控制机制,从问题设计到答案评估逻辑均符合人文社科的学术规范要求,核心目标是通过基准构建与教学落地,培养学生对AI辅助知识工作的问责能力,从源头规避AI辅助研究中的学术不端风险。
从行业应用价值来看,QUESTBENCH可直接用于评估各类深度研究系统的性能瓶颈,精准揭示AI在专业领域查询、多源信息导航、可信答案提取等环节的隐藏缺陷,为垂直领域学术大模型的迭代优化提供标准化的评测依据。在教育场景下,该数据集也可为高校人文社科领域的AI教育提供实证分析案例,帮助师生建立AI辅助研究的规范意识,完善文科数字化教学的评估体系。





_1769672084863.jpg)