CS-Bench - 计算机科学领域大型语言模型综合基准测试数据集|计算机科学数据集|语言模型评估数据集

CS-Bench - 计算机科学领域大型语言模型综合基准测试数据集

github2024-06-12 更新2024-06-17 收录3790

计算机科学

语言模型评估

资源简介：

CS-Bench由北京邮电大学构建，是首个致力于评估大型语言模型（LLMs）在计算机科学领域表现的双语（中英）基准测试数据集。该数据集包含约5000个精心策划的测试样本，覆盖计算机科学的4个主要领域及26个子领域，包含多种任务形式和知识推理类型。数据集的内容涵盖了计算机科学领域的广泛主题，包括但不限于编程语言、算法、数据结构等。通过CS-Bench，研究人员对30多个主流大型语言模型进行了全面评估，揭示了模型规模与计算机科学表现之间的关系，并定量分析了现有模型的失败原因，指出了改进方向，包括知识补充和特定于计算机科学的推理能力。

原始地址：

立即探测

提供机构：

北京邮电大学

创建时间：

2024-06-12