Cybersecurity Question Design Contest 本次发布的数据集 SECBENCH, 该数据集名为SecBench,是一个多维度的基准测试数据集,旨在评估大型语言模型(LLM)在网络安全领域的表现。它包含了44,823个多选题(MCQs)和3,087个简答题(SAQs),这些问题以不同的语言和格式呈现。该数据集覆盖了不同能力级别的问题,支持多种语言,并涵盖了网络安全领域的多个子领域,使其成为评估网络安全领域LLM的最大和最全面的数据集之一。其规模达到了44,823个多选题和3,087个简答题,任务专注于评估网络安全领域的大型语言模型。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)