首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】CS-Bench - 计算机科学领域大型语言模型综合基准测试数据集

五号雷达开源数据市场2024-06-17 14:4644

该数据集包含约5000个精心策划的测试样本，覆盖计算机科学的4个主要领域及26个子领域，包含多种任务形式和知识推理类型。数据集的内容涵盖了计算机科学领域的广泛主题，包括但不限于编程语言、算法、数据结构等。

CS-Bench由北京邮电大学构建，是首个致力于评估大型语言模型（LLMs）在计算机科学领域表现的双语（中英）基准测试数据集。该数据集包含约5000个精心策划的测试样本，覆盖计算机科学的4个主要领域及26个子领域，包含多种任务形式和知识推理类型。数据集的内容涵盖了计算机科学领域的广泛主题，包括但不限于编程语言、算法、数据结构等。通过CS-Bench，研究人员对30多个主流大型语言模型进行了全面评估，揭示了模型规模与计算机科学表现之间的关系，并定量分析了现有模型的失败原因，指出了改进方向，包括知识补充和特定于计算机科学的推理能力。

详情请参见五号雷达：https://www.5radar.com/dataset?id=88126ae4e0bb65fd6ca18e16f82dcc4f

社区讨论

近期热门