北京大学数据科学中心 本次发布的数据集 CodeFlowBench, CodeFlowBench是一个包含5258个问题的数据集,这些问题是从Codeforces平台中抽取的,旨在评估大型语言模型(LLMs)在多轮、迭代代码生成方面的能力。数据集包含一系列的函数级子问题,每个子问题都配有一个单元测试,用于验证生成的代码的正确性。此外,CodeFlowBench还提出了一种新的评估框架,包括针对多轮代码复用的任务和指标,以评估模型性能。实验结果表明,在多轮模式中,模型的性能显著下降,表明当前LLMs在执行代码流任务时仍面临挑战。CodeFlowBench为多轮、迭代代码生成提供了一个全面的基准,并为LLMs的能力提供了新的见解,为未来的代码生成任务指明了方向。
关于 北京大学数据科学中心 , 北京大学数据科学中心是依托于北京大学的一个跨学科研究机构,致力于数据科学的理论研究、技术发展和应用推广。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)