five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
CS-Bench - 计算机科学领域大型语言模型综合基准测试数据集
github2024-06-12 更新2024-06-17 收录3790
计算机科学
语言模型评估
资源简介:
CS-Bench由北京邮电大学构建,是首个致力于评估大型语言模型(LLMs)在计算机科学领域表现的双语(中英)基准测试数据集。该数据集包含约5000个精心策划的测试样本,覆盖计算机科学的4个主要领域及26个子领域,包含多种任务形式和知识推理类型。数据集的内容涵盖了计算机科学领域的广泛主题,包括但不限于编程语言、算法、数据结构等。通过CS-Bench,研究人员对30多个主流大型语言模型进行了全面评估,揭示了模型规模与计算机科学表现之间的关系,并定量分析了现有模型的失败原因,指出了改进方向,包括知识补充和特定于计算机科学的推理能力。
原始地址:
提供机构:
北京邮电大学
创建时间:
2024-06-12
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们