five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Salesforce发布Libra数据集,应用在代码检索、错误报告定位领域

五号数据雷达开源数据市场2026-05-02 02:5017
Libra是Salesforce发布的数据集,于2026-05-01首发在HuggingFace应用于代码检索、错误报告定位领域

Salesforce本次发布的数据集Libra,Libra数据集是为Libra信息浏览与检索代理(一种自进化的代码定位目录系统)提供的训练和评估数据。该数据集的核心理念是“优化环境而非代理”,即通过迭代优化层次化的Markdown目录来指导固定的定位代理进行代码导航。数据集包含13种配置,分为两大类:Prompter配置(12个仓库)和SWE-bench评估配置。Prompter配置包含由Prompter代理生成的合成代码定位问答对,每个实例通过从仓库中随机采样约100行代码块并生成需要定位相关文件和函数的现实查询(如错误报告、功能问题等)。SWE-bench评估配置则包含来自SWE-bench Lite的真实错误报告,并增加了用于评估定位代理的金牌文件和函数标签。数据集总计包含86,389个训练实例和3,287个测试实例。数据集的生成过程涉及Prompter代理随机采样代码块并生成查询,同时记录金牌标签。数据集仅供研究使用,并附有伦理和非竞争性免责声明。

查看Libra

Dataset card内容:

 

Files and versions内容:

 

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们