首页 / 开源数据市场 / 正文

Allen Institute for AI 发布 DataDecide-eval-instances 数据集, 应用在自然语言处理、模型评估领域

五号数据雷达开源数据市场2025-03-12 08:3322

DataDecide-eval-instances 是 Allen Institute for AI 发布的数据集,于 2025-03-11 首发在 HuggingFace 应用于自然语言处理、模型评估领域

Allen Institute for AI 本次发布的数据集 DataDecide-eval-instances, DataDecide评估实例数据集包含来自DataDecide项目（即将发表的论文）的单个评估实例数据。它展示了标准评估基准在许多模型设计维度上的变化。数据集包含了一系列OLMo风格模型的评估，这些模型使用了25种不同的训练数据配置，9种不同大小（参数计数为4M、20M、60M、90M、150M、300M、750M和1B），3个初始随机种子，以及每个模型多个训练检查点（大小约为10到50个，取决于模型大小）。评估使用了OLMES论文中的10个不同评估任务，采用cloze格式：ARC挑战、ARC简单、BoolQ、CSQA、HellaSwag、MMLU（57个子任务）、OBQA、PIQA、Social IQa和Winogrande。此外，还有4种不同的评估方法用于对模型答案进行排名。总共有大约150万个模型检查点和5亿个单独的评估实例。数据集采用cloze格式（而不是“A/B/C/D”多项选择格式），因为这些模型通常太小，无法掌握后者。数据集在解压后的组织结构如下：models/目录下，每个模型名代表一个训练混合使用，例如“dclm-baseline”，在每个模型目录下，有不同的大小目录，例如“150M”，在每个大小目录下，有不同种子目录，例如“seed-14”，在每个种子目录下，有不同步骤的模型检查点，例如“step-25000”，每个检查点目录下包含对应任务的metric和prediction文件。此外，数据集还包含了一个summary-metrics.jsonl文件，其中包含了每个任务和模型配置的汇总指标。requests目录包含了每个实例使用的确切模型请求。

查看DataDecide-eval-instances

Dataset card 内容：

Files and versions 内容：

关于 Allen Institute for AI , 艾伦人工智能研究所是一家专注于AI研究和应用的高级研究机构。

关于 HuggingFace , Hugging Face是一个机器学习社区协作平台，专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型，包括文本、图像、视频、音频和3D数据，并提供开源工具和付费计算及企业解决方案。

社区讨论

近期热门

Allen Institute for AI 发布 DataDecide-eval-instances 数据集, 应用在 自然语言处理、模型评估 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

Allen Institute for AI 发布 DataDecide-eval-instances 数据集, 应用在自然语言处理、模型评估领域