five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

CircleCat发布PYMETA大规模Python代码基准数据集 赋能代码诊断与编程教育智能化

五号数据雷达开源数据市场2026-07-01 04:125
AI研发机构CircleCat于2026年6月30日在预印本平台arXiv首发大规模Python代码错误分类基准数据集PYMETA,该数据集填补了现有同类资源在规模、错误覆盖率、统一分类体系上的短板,可为大语言模型代码诊断研究、编程教育智能化评估提供高质量数据支撑。

随着大语言模型在代码生成、智能编程辅助领域的快速落地,代码错误诊断能力已经成为衡量代码大模型实用性的核心指标之一,而高质量、贴合真实场景的标注数据集,正是支撑相关技术迭代的核心底座。与此同时,编程教育的数字化转型也对标准化的代码错误标注数据提出了迫切需求:在线编程学习平台的智能判分、个性化错误指导,编程教育研究中的学习者行为分析,都需要依托统一分类逻辑、覆盖常见错误类型的数据集作为基础。但此前公开的同类数据集普遍存在合成案例占比高、与真实开发者错误习惯偏差大,错误分类体系不统一、跨场景适配性差,规模不足、错误类型覆盖不全等问题,成为制约相关领域发展的共性瓶颈。

正是瞄准这一行业痛点,CircleCat本次发布的PYMETA数据集,是由其机构构建的大规模Python代码错误分类基准数据集,核心目标是为基于大语言模型的代码诊断研究提供标准化数据基础。该数据集包含48,646条来自579名学生的真实代码提交,覆盖155个不同编程问题,并附带一个由专家标注的97条多错误诊断子集,样本量和场景覆盖度均处于公开同类数据集前列。数据全部通过在线学习平台收集,采用基于Python官方异常层次结构的三级分层分类法,包含从二元错误检测到14种细粒度错误类型的标注。数据集创建过程整合了在线判题系统的执行结果与专家人工注释,既保证了标签的准确性,也强化了数据集在教育场景的适配性。

从应用方向来看,PYMETA数据集可覆盖代码技术研发、编程教育两大核心场景。在代码错误诊断领域,其真实场景的错误样本可支撑代码大模型的微调优化,提升IDE智能Debug功能、企业级代码审计工具对入门开发者、学生群体常见错误的识别准确率,降低合成数据带来的场景适配偏差。在编程教育评估领域,统一的三级分类体系可支持在线学习平台实现从错误存在性检测、细粒度错误原因定位到多错误并行分析的全链路智能评估,既可为学习者提供更精准的个性化学习建议,也可为教育研究者分析不同群体的编程学习规律、优化课程体系设计提供数据支撑。

作为AI领域核心的生产要素,高质量垂直场景数据集的供给能力,直接决定了细分赛道的技术迭代速度。PYMETA数据集的发布,不仅填补了Python代码错误诊断领域的公共数据供给短板,也为代码类数据集的标准化标注、教育场景适配提供了可参考的样本,对推动代码大模型技术落地、编程教育数字化升级均有积极意义。

查看PYMETA

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们