首页 / 开源数据市场 / 正文

Salesforce AI Research 发布 LoCoBench 数据集, 应用在软件工程、长上下文评估领域

五号数据雷达开源数据市场2025-11-24 14:1631

LoCoBench 是 Salesforce AI Research 发布的数据集,于 2025-09-12 首发在 arXiv 应用于软件工程、长上下文评估领域

Salesforce AI Research 本次发布的数据集 LoCoBench, LoCoBench 是一个为评估长上下文大型语言模型在复杂软件工程中的应用而设计的综合基准。该数据集由 Salesforce AI Research 创建，包含 8000 个评估场景，覆盖 10 种编程语言和 36 个领域类别。数据集的上下文长度从 10K 到 1M Tokens 不等，能够精确评估长上下文性能的退化。LoCoBench 引入了 8 个任务类别，包括架构理解、跨文件重构、多会话开发、错误调查、功能实现、代码理解、集成测试和安全分析，旨在解决复杂软件工程中的长上下文能力评估问题。数据集通过一个五阶段的流程创建，包括项目规范生成、代码库生成、评估场景创建、验证和质量管理以及 LLM 评估和评分。LoCoBench 提供了一个全面的评估框架，包含 17 个指标，涵盖软件工程卓越、功能正确性、代码质量评估和长上下文利用等方面。

查看LoCoBench

README 内容：

关于 Salesforce AI Research , Salesforce AI Research是Salesforce公司下属的人工智能研究部门，致力于推动机器学习和深度学习领域的科学研究，并将这些研究成果应用于Salesforce的产品中，以提升客户服务和企业自动化水平。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

Salesforce AI Research 发布 LoCoBench 数据集, 应用在 软件工程、长上下文评估 领域

README 内容：

社区讨论

Salesforce AI Research 发布 LoCoBench 数据集, 应用在软件工程、长上下文评估领域