five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

微软 发布 DI-BENCH 数据集, 应用在 依赖推断、代码生成 领域

五号数据雷达开源数据市场2025-01-25 08:4227
DI-BENCH 是 微软 发布的数据集,于 2025-01-23 首发在 arXiv 应用于 依赖推断、代码生成 领域

微软 本次发布的数据集 DI-BENCH, DI-BENCH是一个专注于依赖推断的大规模基准测试数据集,由微软等机构联合开发。该数据集包含581个真实世界的代码仓库,涵盖Python、C#、Rust和JavaScript四种编程语言,分为常规和大规模两个子集,分别包含387和194个仓库。数据集通过GitHub Actions自动化构建,确保了每个仓库的可执行性。DI-BENCH不仅评估模型生成的依赖项与真实依赖项的文本匹配度,还通过执行测试套件来评估代码的可执行性。该数据集旨在解决大型语言模型在生成代码时依赖推断不准确的问题,推动端到端软件合成的进一步发展。

查看DI-BENCH

README 内容: 

 

关于 微软 , 微软(Microsoft)是一家全球领先的科技公司,成立于1975年,总部位于美国华盛顿州雷德蒙德。微软以开发、制造、许可、支持和销售计算机软件、消费电子产品、个人电脑和相关服务而闻名,其最著名的产品包括Windows操作系统、Office办公软件套件和Azure云计算服务。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们