five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

RUCAIBox 发布 Synthetic Math Problem-Solution Pairs 数据集, 应用在 数学推理、自然语言处理 领域

五号数据雷达开源数据市场2025-10-04 11:5725
Synthetic Math Problem-Solution Pairs 是 RUCAIBox 发布的数据集,于 2025-10-04 首发在 arXiv 应用于 数学推理、自然语言处理 领域

RUCAIBox 本次发布的数据集 Synthetic Math Problem-Solution Pairs, 该数据集包含了46亿个由GPT-4生成的数学问题-解答对,旨在提升较小规模的大型语言模型(LLM)的数学推理能力。通过提炼GPT-4的数据合成能力,生成了这个数据集,用于对九章3.0模型进行预训练,提供了高质量的训练数据,从而在各类数学推理任务中提升了模型的性能。该数据集的规模达到了46亿对,任务专注于数学推理训练。

查看Synthetic Math Problem-Solution Pairs

README 内容: 

 

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们