NVIDIA 本次发布的数据集 OpenMathInstruct-2, OpenMathInstruct-2是一个数学指令调优数据集,包含1400万个问题-解决方案对。这些数据对是通过使用Llama3.1-405B-Instruct模型生成的。数据集的构建基于GSM8K和MATH训练集的问题,通过解决方案增强和问题-解决方案增强两种方式生成新的问题和解决方案。数据集包含四个主要字段:问题、生成的解决方案、预期答案和问题来源。预期答案对于训练集中的问题是从数据集中提供的真实答案,而对于增强的问题则是通过多数投票得出的答案。数据集还包括一个污染探索器,用于查找与GSM8K、MATH、AMC 2023、AIME 2024和Omni-MATH测试集问题相似的问题。此外,还发布了一系列基于此数据集训练的OpenMath2模型,并提供了代码、模型和数据集的链接,以及如何重现结果的详细说明。
Dataset card 内容:
Files and versions 内容:
关于 NVIDIA , 英伟达是一家专注于图形处理器开发的全球知名技术公司。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)