Orca-Math-200K是微软创建的一个高质量的合成数据集,包含约 20 万小学数学题目,此数据集中的所有答案都是使用 Azure GPT4-Turbo 生成的。研究者创建了多个Agent,辅助数据集的构建,创建过程中涉及种子集合构建、Agent - Ask Me Anything生成问题、Agent-建议者-编辑者合作生成、DMath数据集导入、数据集增强和迭代学习过程。该数据集旨在提升语言模型的数学能力,以期为语言模型在数学问题解决方面提供坚实的基础。
数据集地址: https://huggingface.co/datasets/microsoft/orca-math-word-problems-200k





_1769672084863.jpg)