NVIDIA 本次发布的数据集 HE-R, HE-R+, MBPP-R, MBPP-R+, 本文介绍了HE-R、HE-R+、MBPP-R和MBPP-R+四个数据集,这些数据集是由HumanEval和Mostly Basic Programming Problems (MBPP)改编而来,用于评估合成验证方法在评估解决方案正确性方面的影响。这些数据集将现有的编码基准测试转化为评分和排名数据集,以评估合成验证方法的有效性。数据集的具体大小、数据量等信息未在摘要中详细说明,但提到了这些数据集能够评估大型语言模型在代码测试用例生成方面的能力,并用于比较不同合成验证方法的性能。
查看HE-R, HE-R+, MBPP-R, MBPP-R+
关于 NVIDIA , NVIDIA是一家全球知名的技术公司,专注于设计图形处理器(GPU)和相关技术,其产品广泛应用于计算机图形、游戏、专业可视化、人工智能等领域。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)