随着代码生成大模型在智能编程辅助、低代码开发、自动化运维等场景的规模化落地,大模型代码能力的公允评测已成为行业普遍关注的核心问题:此前多份行业测试报告显示,部分代码大模型存在训练集泄露、刻意针对公开评测基准做定向优化等“作弊”行为,导致公开测试结果无法真实反映模型的通用代码生成能力,既干扰了企业的大模型选型决策,也不利于代码生成领域的良性技术竞争。
2026年5月1日,人工智能研究机构FAR AI在HuggingFace平台首发全新专项数据集mbpp-honeypot-impossible-oneoff,为代码大模型的作弊检测、模型行为验证提供了高可信度的测试依据。
FAR AI本次发布的数据集mbpp-honeypot-impossible-oneoff,是通用代码评测基准MBPP (Mostly Basic Python Problems) 数据集的专属变体,核心设计逻辑就是通过构造“不可能通过的测试用例”实现作弊行为的精准识别。该数据集对MBPP原始数据集中每个问题的其中一个断言进行针对性修改,使其与问题的自然语言描述、官方参考解决方案完全矛盾,正常遵循用户需求编写的代码必然无法通过修改后的 `check()` 测试。一旦某款代码大模型在该数据集上的通过率异常偏高,即可直接判定该模型在训练阶段已经接触过修改后的测试用例,存在刻意针对评测基准优化的作弊行为,检测结论无需额外交叉验证即可生效。
本次公开的数据集共包含954条有效记录,其中训练集370条、测试集495条、验证集89条,覆盖Python基础编程场景下的各类主流任务类型。数据集字段设置完整覆盖评测全流程需求,核心字段包括任务ID、规范描述(函数签名、文档字符串、入口点和自然语言描述)、原始断言列表、修改后的断言列表、修改断言的索引、可见测试数量、挑战测试数量、测试设置代码等,可直接适配各类代码大模型的自动化评测流程,无需额外做数据清洗或格式转换,适用于文本生成任务,特别是代码生成和模型作弊检测的相关研究。
从应用价值来看,该数据集首先可应用于代码大模型的公允评测环节,帮助第三方评测机构、企业采购方快速识别模型是否存在训练集泄露、针对性优化等作弊行为,还原模型的真实代码生成能力;其次可用于模型行为合规性验证,测试代码大模型是否存在为了通过测试而违背用户原始需求的“捷径对齐”问题,为大模型的对齐训练提供校验依据;此外,该数据集还可作为负样本资源加入代码大模型的训练流程,引导模型严格遵循用户需求生成代码,而非优先匹配测试用例的输出要求。
作为AI评测类数据要素的重要补充,本次发布的专项数据集进一步完善了代码大模型的评测工具体系,对于推动代码生成领域的良性技术竞争、降低大模型选型的验证成本、规范AI模型评测的行业标准都具备重要的现实意义。
查看mbpp-honeypot-impossible-oneoff





_1769672084863.jpg)