Google 本次发布的数据集 FreshBrew, FreshBrew是一个针对Java代码迁移的AI代理评估基准,旨在测量AI代理在项目级别的Java迁移能力。该数据集包含228个真实世界的Java项目,这些项目在JDK 8上可以成功构建,但在现代JDK上构建失败,并且具有至少50%的测试覆盖率。FreshBrew的评估协议通过三个连续的阶段来衡量成功:成功编译、通过所有原始测试以及保持测试覆盖率在基线的5%以内。这些阶段确保只有语义正确的迁移才能被计为成功,并有效地防止奖励黑客行为。通过发布FreshBrew,我们旨在促进严格、可重复的评估,并推动AI驱动的代码库现代化进程的进步。
README 内容:
关于 Google , Google 是一家美国的跨国科技公司,专注于互联网相关的服务和产品,包括在线广告技术、搜索引擎、云计算、软件等。它是世界上最大的搜索引擎公司,提供网页搜索、视频搜索等多种在线信息检索服务。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)