OCTOBENCH 数据集发布
1月15日,MiniMax 联合北京大学、复旦大学发布了编程智能体指令遵循评测基准数据集 OCTOBENCH。
“脚手架”约束
OCTOBENCH 聚焦编程智能体在真实代码仓库中的指令遵循能力,重点评估大模型是否能够遵循预设的“脚手架”——即智能体执行任务时所需遵循的既定流程与规则约束(scaffold-aware instruction following)。
数据集规模与特点
OCTOBENCH 覆盖 34 种工程环境和 217 个任务,涉及三类工业级脚手架,包括 Anthropic 的 Claude Code、Kilo 以及 Factory.ai 的 Droid,并配套 7,098 项客观可判定的检查项。
数据集地址: OCTOBENCH
论文地址: OCTOBENCH: Benchmarking Scaffold-Aware Instruction Following in Repository-Grounded Agentic Coding






_1769672084863.jpg)