ZJUNLP本次发布的数据集SteerEval,SteerEval 是一个层次化基准测试数据集,旨在系统评估大型语言模型(LLMs)在行为领域和粒度级别上的可控性。该数据集将控制目标分为四个行为领域:语言特征、情感、个性和推理模式。每个领域又按层次结构分为三个规范级别:计算级别(表达什么)、算法级别(如何表达)和实施级别(如何实例化)。每个级别包含8个不同的概念,每个概念提供70个训练样本、30个测试样本和5个验证样本。每个样本由一个问题和匹配的答案及不匹配的答案组成,总计包含10,080个样本。数据集文件按行为领域组织,每个领域包含训练、验证和测试分割文件,以及所有控制目标概念的列表文件。样本字段包括行为领域、概念ID、概念名称、概念描述、问题ID、问题文本、匹配答案和不匹配答案。该数据集适用于评估和提升大型语言模型在多样化行为控制任务中的表现。
关于ZJUNLP,ZJUNLP是浙江大学的研究小组,专注于知识图谱和自然语言处理技术的研究。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)