five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】CS-Bench - 计算机科学领域大型语言模型综合基准测试数据集

五号雷达开源数据市场2024-06-17 14:4644
该数据集包含约5000个精心策划的测试样本,覆盖计算机科学的4个主要领域及26个子领域,包含多种任务形式和知识推理类型。数据集的内容涵盖了计算机科学领域的广泛主题,包括但不限于编程语言、算法、数据结构等。

CS-Bench由北京邮电大学构建,是首个致力于评估大型语言模型(LLMs)在计算机科学领域表现的双语(中英)基准测试数据集。该数据集包含约5000个精心策划的测试样本,覆盖计算机科学的4个主要领域及26个子领域,包含多种任务形式和知识推理类型。数据集的内容涵盖了计算机科学领域的广泛主题,包括但不限于编程语言、算法、数据结构等。通过CS-Bench,研究人员对30多个主流大型语言模型进行了全面评估,揭示了模型规模与计算机科学表现之间的关系,并定量分析了现有模型的失败原因,指出了改进方向,包括知识补充和特定于计算机科学的推理能力。

详情请参见五号雷达:https://www.5radar.com/dataset?id=88126ae4e0bb65fd6ca18e16f82dcc4f

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们