北京理工大学计算机科学与技术学院 本次发布的数据集 EduBench, EduBench是一个综合性的基准数据集,专为评估大型语言模型在多样化教育场景中的应用而设计。该数据集由北京理工大学计算机科学与技术学院的研究团队创建,包含9个主要场景和超过4000个独特的教育环境。数据集旨在支持教育应用,并促进稳健且目标对齐的评估机制的发展,以反映现代教育需求的多样性。数据集内容涵盖了多样化的教育场景,包括作业评判、根据特定学生档案提出学习计划、提供心理健康建议等。数据集还设计了多种教育环境,以促进数据的多样性,例如问题难度、学生成绩(如小学生、高中生、研究生等)和不同科目。EduBench包含了18821个数据点,涵盖了从K-12到研究生水平的广泛教育场景,从基本回忆到复杂推理。数据集的创建过程包括场景设计、教育环境设计、任务场景的问题生成等。EduBench的应用领域包括教育应用和LLM评估,旨在解决教育中LLM的实用部署问题,并推动教育AI研究的发展。
README 内容:
关于 北京理工大学计算机科学与技术学院 , 北京理工大学计算机科学与技术学院是北京理工大学的下属学院,主要从事计算机科学与技术的教学与研究工作。学院拥有一支强大的教师队伍,致力于培养高素质的计算机专业人才,同时开展了一系列的科研活动,在国内外学术界有着较高的声誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)