哥伦比亚大学 本次发布的数据集 CodeSense, CodeSense 是一个面向真实世界代码语义推理的基准和数据分析集,旨在评估代码大语言模型(LLMs)在实际软件工程(SE)任务中的能力。该数据集包含来自真实世界存储库的 Python、C 和 Java 软件项目,并通过执行测试、收集执行跟踪和构建细粒度语义推理任务的基准数据集来创建。CodeSense 数据集包括 2125 个 Python、876 个 C 和 875 个 Java 唯一函数,基于这些函数,我们整理了 4495 个样本及其基准数据。该数据集的创建过程包括收集真实世界的软件项目、开发自动提取基准任务的框架、构建和执行项目以及记录运行时执行值和跟踪。CodeSense 数据集的应用领域包括测试输入生成、漏洞检测、故障定位、代码修复、重构和功能验证等软件工程任务。
关于 哥伦比亚大学 , 哥伦比亚大学是一所位于美国纽约市的著名私立研究型大学,以其卓越的学术水平和多元化的校园文化而闻名于世。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)