five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

微软亚洲研究院 发布 rStar-Coder 数据集, 应用在 编程竞赛、人工智能编程 领域

五号数据雷达开源数据市场2025-05-29 07:2849
rStar-Coder 是 微软亚洲研究院 发布的数据集,于 2025-05-27 首发在 arXiv 应用于 编程竞赛、人工智能编程 领域

微软亚洲研究院 本次发布的数据集 rStar-Coder, rStar-Coder 是一个大规模、经过验证的数据集,包含 418,000 个竞赛级别的代码问题,以及 580,000 个长期推理解决方案,并配有丰富、难度各异的测试案例。该数据集通过以下三个核心贡献构建:首先,我们从竞赛编程平台(如 IOI、Codeforces)收集和清理了 37,700 个专家编写的具有标准解决方案的问题,并使用它们作为种子来合成新的可解问题;其次,我们引入了一个可靠的输入-输出测试案例合成管道,将生成过程分为三步输入生成方法和一个相互验证机制,以有效地进行输出标注;最后,我们用高质量、经过测试案例验证的长期推理解决方案增强了问题。在 Qwen 模型(1.5B-14B)上的广泛实验表明,rStar-Coder 数据集具有优越性,即使在较小的模型规模下,也能实现与前沿推理 LLM 相当的领先性能。

查看rStar-Coder

README 内容: 

 

关于 微软亚洲研究院 , 微软亚洲研究院是微软公司在亚洲设立的研究机构,致力于计算机科学的基础研究和技术创新。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们