北京大学 本次发布的数据集 SAS-Bench, SAS-Bench数据集是一个专为评估大型语言模型在主观答案评分任务中的表现而设计的基准。该数据集包含来自中国高考的真实问题,覆盖了9个学术科目,共有1,030个问题和4,109个学生答案。所有答案都由学科专家进行了逐步骤评分和详细的错误原因标注,以确保评估结果的准确性和可靠性。数据集还包含了多种模板无关的问题类型,以及预定义的错误原因集,用于量化模型的解释性。该数据集旨在帮助研究人员更好地理解LLM在评分任务中的表现,并提高LLM作为评判者的系统的鲁棒性、公平性和教育意义。
README 内容:
关于 北京大学 , 北京大学是中国著名的高等学府,成立于1898年,原名京师大学堂,是中国最早的国立综合性大学,也是国家首批“211工程”和“985工程”重点支持的大学之一,涵盖了人文科学、社会科学、自然科学、工程技术、医学等多个学科领域。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)