ETH Zurich 本次发布的数据集 SWEE-Bench,SWA-Bench, SWEE-Bench是一个包含数百个代码库的扩展版SWEBench,而SWA-Bench则是一个关注应用的代码库的基准。这两个数据集旨在代表真实世界的用例,考虑了许多代码库,以实现多样化的基准,并且可以频繁更新以避免污染和过拟合。SWEE-Bench关注多样性以及不太受欢迎的项目,包含了366个Python代码库;SWA-Bench关注软件应用,包含44个项目。这些数据集在代码库的年龄、创建时的受欢迎程度、关注近期问题以及代码修复的复杂性等方面与SWE-Bench存在显著差异,且对于某些模型,性能差异显著,表明在代表性基准上进行评估的重要性。
关于 ETH Zurich , ETH Zurich(苏黎世联邦理工学院)是位于瑞士苏黎世的著名研究型大学,以其在科学和工程领域的卓越教育和研究而闻名,是欧洲乃至世界上最好的大学之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)