Allen Institute for AI 本次发布的数据集 DataDecide-eval-instances, DataDecide评估实例数据集包含来自DataDecide项目(即将发表的论文)的单个评估实例数据。它展示了标准评估基准在许多模型设计维度上的变化。数据集包含了一系列OLMo风格模型的评估,这些模型使用了25种不同的训练数据配置,9种不同大小(参数计数为4M、20M、60M、90M、150M、300M、750M和1B),3个初始随机种子,以及每个模型多个训练检查点(大小约为10到50个,取决于模型大小)。评估使用了OLMES论文中的10个不同评估任务,采用cloze格式:ARC挑战、ARC简单、BoolQ、CSQA、HellaSwag、MMLU(57个子任务)、OBQA、PIQA、Social IQa和Winogrande。此外,还有4种不同的评估方法用于对模型答案进行排名。总共有大约150万个模型检查点和5亿个单独的评估实例。数据集采用cloze格式(而不是“A/B/C/D”多项选择格式),因为这些模型通常太小,无法掌握后者。数据集在解压后的组织结构如下:models/目录下,每个模型名代表一个训练混合使用,例如“dclm-baseline”,在每个模型目录下,有不同的大小目录,例如“150M”,在每个大小目录下,有不同种子目录,例如“seed-14”,在每个种子目录下,有不同步骤的模型检查点,例如“step-25000”,每个检查点目录下包含对应任务的metric和prediction文件。此外,数据集还包含了一个summary-metrics.jsonl文件,其中包含了每个任务和模型配置的汇总指标。requests目录包含了每个实例使用的确切模型请求。
Dataset card 内容:
Files and versions 内容:
关于 Allen Institute for AI , 艾伦人工智能研究所是一家专注于AI研究和应用的高级研究机构。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)