北京航空航天大学 本次发布的数据集 CODE2BENCH-2505, CODE2BENCH-2505是一个动态构建的基准数据集,旨在评估大型语言模型在真实世界代码生成任务上的性能。该数据集来源于GitHub上880个Python项目,涵盖了多种领域,共包含1163个代码生成任务。数据集通过连续更新GitHub代码库来最小化训练数据污染的风险,并确保其与不断发展的软件开发生态系统保持相关性。数据集中的任务分为两种类型:自包含(SC)任务和弱自包含(WSC)任务,分别对应于跨语言评估和允许使用特定外部库的任务。此外,数据集使用了基于属性的测试(PBT)方法来自动生成高覆盖率的测试套件,以全面验证模型的功能。该数据集为评估大型语言模型在真实世界软件开发任务上的性能提供了坚实的基础。
README 内容:
关于 北京航空航天大学 , 北京航空航天大学(Beihang University),简称北航,是中国著名的理工类高等学府,位于北京市,是中华人民共和国工业和信息化部直属的全国重点大学。学校以航空航天和信息技术为特色,培养了大量航空航天、计算机、机械等领域的优秀人才,是中国航空航天科技和高等教育的重要基地。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)