RUCAIBox 本次发布的数据集 Synthetic Math Problem-Solution Pairs, 该数据集包含了46亿个由GPT-4生成的数学问题-解答对,旨在提升较小规模的大型语言模型(LLM)的数学推理能力。通过提炼GPT-4的数据合成能力,生成了这个数据集,用于对九章3.0模型进行预训练,提供了高质量的训练数据,从而在各类数学推理任务中提升了模型的性能。该数据集的规模达到了46亿对,任务专注于数学推理训练。
查看Synthetic Math Problem-Solution Pairs
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)