【遇见简讯】MiniMax 联合北大、复旦发布编程智能体指令遵循评测基准

OCTOBENCH 数据集发布
1月15日，MiniMax 联合北京大学、复旦大学发布了编程智能体指令遵循评测基准数据集 OCTOBENCH。

“脚手架”约束
OCTOBENCH 聚焦编程智能体在真实代码仓库中的指令遵循能力，重点评估大模型是否能够遵循预设的“脚手架”——即智能体执行任务时所需遵循的既定流程与规则约束（scaffold-aware instruction following）。

数据集规模与特点
OCTOBENCH 覆盖 34 种工程环境和 217 个任务，涉及三类工业级脚手架，包括 Anthropic 的 Claude Code、Kilo 以及 Factory.ai 的 Droid，并配套 7,098 项客观可判定的检查项。