five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

北京航空航天大学 发布 CODE2BENCH-2505 数据集, 应用在 软件开发、机器学习评估 领域

五号数据雷达开源数据市场2025-08-13 12:0820
CODE2BENCH-2505 是 北京航空航天大学 发布的数据集,于 2025-08-10 首发在 arXiv 应用于 软件开发、机器学习评估 领域

北京航空航天大学 本次发布的数据集 CODE2BENCH-2505, CODE2BENCH-2505是一个动态构建的基准数据集,旨在评估大型语言模型在真实世界代码生成任务上的性能。该数据集来源于GitHub上880个Python项目,涵盖了多种领域,共包含1163个代码生成任务。数据集通过连续更新GitHub代码库来最小化训练数据污染的风险,并确保其与不断发展的软件开发生态系统保持相关性。数据集中的任务分为两种类型:自包含(SC)任务和弱自包含(WSC)任务,分别对应于跨语言评估和允许使用特定外部库的任务。此外,数据集使用了基于属性的测试(PBT)方法来自动生成高覆盖率的测试套件,以全面验证模型的功能。该数据集为评估大型语言模型在真实世界软件开发任务上的性能提供了坚实的基础。

查看CODE2BENCH-2505

README 内容: 

 

关于 北京航空航天大学 , 北京航空航天大学(Beihang University),简称北航,是中国著名的理工类高等学府,位于北京市,是中华人民共和国工业和信息化部直属的全国重点大学。学校以航空航天和信息技术为特色,培养了大量航空航天、计算机、机械等领域的优秀人才,是中国航空航天科技和高等教育的重要基地。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们