首页 / 开源数据市场 / 正文

ASUS Intelligent Cloud Services (AICS) 发布 CodeJudgeBench 数据集, 应用在代码生成、LLM评估领域

五号数据雷达开源数据市场2025-07-16 10:1843

CodeJudgeBench 是 ASUS Intelligent Cloud Services (AICS) 发布的数据集,于 2025-07-15 首发在 arXiv 应用于代码生成、LLM评估领域

ASUS Intelligent Cloud Services (AICS) 本次发布的数据集 CodeJudgeBench, CodeJudgeBench是一个专门用于评估大型语言模型（LLM）在代码生成、代码修复和单元测试生成三个关键编码任务中的性能的基准数据集。该数据集包含4260个精心设计的评估对，来源于LiveCodeBench的挑战性编码问题，并通过先进的语言模型如Gemini和Claude生成候选响应。数据集的创建过程包括响应收集、响应验证和响应配对三个阶段，旨在为LLM-as-a-Judge提供一种可扩展和鲁棒的评估框架，并促进自动响应排序，从而提高整体性能。数据集适用于评估LLM在编码场景下的可靠性和一致性，并为LLM-as-a-Judge的开发提供有价值的建议。

查看CodeJudgeBench

Dataset card 内容：

Files and versions 内容：

关于 ASUS Intelligent Cloud Services (AICS) , -

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

ASUS Intelligent Cloud Services (AICS) 发布 CodeJudgeBench 数据集, 应用在 代码生成、LLM评估 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

ASUS Intelligent Cloud Services (AICS) 发布 CodeJudgeBench 数据集, 应用在代码生成、LLM评估领域