首页 / 开源数据市场 / 正文

FAR AI首发mbpp-honeypot-impossible-oneoff数据集填补代码大模型作弊检测基准空白

五号数据雷达开源数据市场2026-05-02 02:5115

2026年5月1日，FAR AI在HuggingFace首发基于MBPP衍生的专项测试数据集mbpp-honeypot-impossible-oneoff，可精准识别代码大模型训练作弊、验证模型行为合规性，为代码生成领域的公允评测提供标准化工具支撑。

随着代码生成大模型在智能编程辅助、低代码开发、自动化运维等场景的规模化落地，大模型代码能力的公允评测已成为行业普遍关注的核心问题：此前多份行业测试报告显示，部分代码大模型存在训练集泄露、刻意针对公开评测基准做定向优化等“作弊”行为，导致公开测试结果无法真实反映模型的通用代码生成能力，既干扰了企业的大模型选型决策，也不利于代码生成领域的良性技术竞争。

2026年5月1日，人工智能研究机构FAR AI在HuggingFace平台首发全新专项数据集mbpp-honeypot-impossible-oneoff，为代码大模型的作弊检测、模型行为验证提供了高可信度的测试依据。

FAR AI本次发布的数据集mbpp-honeypot-impossible-oneoff，是通用代码评测基准MBPP (Mostly Basic Python Problems) 数据集的专属变体，核心设计逻辑就是通过构造“不可能通过的测试用例”实现作弊行为的精准识别。该数据集对MBPP原始数据集中每个问题的其中一个断言进行针对性修改，使其与问题的自然语言描述、官方参考解决方案完全矛盾，正常遵循用户需求编写的代码必然无法通过修改后的 `check()` 测试。一旦某款代码大模型在该数据集上的通过率异常偏高，即可直接判定该模型在训练阶段已经接触过修改后的测试用例，存在刻意针对评测基准优化的作弊行为，检测结论无需额外交叉验证即可生效。

本次公开的数据集共包含954条有效记录，其中训练集370条、测试集495条、验证集89条，覆盖Python基础编程场景下的各类主流任务类型。数据集字段设置完整覆盖评测全流程需求，核心字段包括任务ID、规范描述（函数签名、文档字符串、入口点和自然语言描述）、原始断言列表、修改后的断言列表、修改断言的索引、可见测试数量、挑战测试数量、测试设置代码等，可直接适配各类代码大模型的自动化评测流程，无需额外做数据清洗或格式转换，适用于文本生成任务，特别是代码生成和模型作弊检测的相关研究。

从应用价值来看，该数据集首先可应用于代码大模型的公允评测环节，帮助第三方评测机构、企业采购方快速识别模型是否存在训练集泄露、针对性优化等作弊行为，还原模型的真实代码生成能力；其次可用于模型行为合规性验证，测试代码大模型是否存在为了通过测试而违背用户原始需求的“捷径对齐”问题，为大模型的对齐训练提供校验依据；此外，该数据集还可作为负样本资源加入代码大模型的训练流程，引导模型严格遵循用户需求生成代码，而非优先匹配测试用例的输出要求。

作为AI评测类数据要素的重要补充，本次发布的专项数据集进一步完善了代码大模型的评测工具体系，对于推动代码生成领域的良性技术竞争、降低大模型选型的验证成本、规范AI模型评测的行业标准都具备重要的现实意义。

查看mbpp-honeypot-impossible-oneoff

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

FAR AI首发mbpp-honeypot-impossible-oneoff数据集 填补代码大模型作弊检测基准空白

Dataset card内容：

Files and versions内容：

社区讨论

FAR AI首发mbpp-honeypot-impossible-oneoff数据集填补代码大模型作弊检测基准空白