AMD 本次发布的数据集 Instella-GSM8K-synthetic, Instella-GSM8K-synthetic数据集是基于GSM8k数据集的训练集生成的合成数据集,用于Instella-3B模型的第二阶段预训练。该数据集通过使用Qwen2.5-72B-Instruct模型将数值抽象为函数参数并生成解决数学问题的Python程序,然后替换原有问题中的数值以生成新的可解答的问题,进而通过为这些Python参数分配不同的新值并使用抽象的解决方案程序计算相应的答案来扩展数据集。数据集包含两个分割:train和train_119K,后者是前者的一个子集,用于Instella-3B模型的第二阶段预训练。
Dataset card 内容:
Files and versions 内容:
关于 AMD , AMD(Advanced Micro Devices)是一家全球知名的半导体公司,主要从事中央处理器(CPU)和图形处理器(GPU)的设计与销售,为计算机、游戏和嵌入式市场提供高性能硬件产品。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)