韩国科学技术院 本次发布的数据集 GitHub Recent Bugs (GHRB) Dataset, GitHub Recent Bugs (GHRB) Dataset是由韩国科学技术院创建的一个包含76个真实世界Java bug的数据集。该数据集旨在评估基于大型语言模型(LLM)的调试应用,特别关注于避免数据泄露问题。数据集中的bug均在2021年9月之后被修复,确保不包含在LLM的训练数据中。GHRB数据集不仅提供了bug的详细信息,还包括了bug揭示测试和补丁信息,适用于软件工程领域的标准化和公平评估。
查看GitHub Recent Bugs (GHRB) Dataset
README 内容:
关于 韩国科学技术院 , 韩国科学技术院是韩国最高科学研究机构,致力于推动科技创新和培养科研人才。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)