five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

哥伦比亚大学 发布 CodeSense 数据集, 应用在 代码语义推理、软件工程 领域

五号数据雷达开源数据市场2025-06-05 07:2429
CodeSense 是 哥伦比亚大学 发布的数据集,于 2025-06-01 首发在 arXiv 应用于 代码语义推理、软件工程 领域

哥伦比亚大学 本次发布的数据集 CodeSense, CodeSense 是一个面向真实世界代码语义推理的基准和数据分析集,旨在评估代码大语言模型(LLMs)在实际软件工程(SE)任务中的能力。该数据集包含来自真实世界存储库的 Python、C 和 Java 软件项目,并通过执行测试、收集执行跟踪和构建细粒度语义推理任务的基准数据集来创建。CodeSense 数据集包括 2125 个 Python、876 个 C 和 875 个 Java 唯一函数,基于这些函数,我们整理了 4495 个样本及其基准数据。该数据集的创建过程包括收集真实世界的软件项目、开发自动提取基准任务的框架、构建和执行项目以及记录运行时执行值和跟踪。CodeSense 数据集的应用领域包括测试输入生成、漏洞检测、故障定位、代码修复、重构和功能验证等软件工程任务。

查看CodeSense

关于 哥伦比亚大学 , 哥伦比亚大学是一所位于美国纽约市的著名私立研究型大学,以其卓越的学术水平和多元化的校园文化而闻名于世。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们