five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【遇见简讯】MiniMax 联合北大、复旦发布编程智能体指令遵循评测基准

五号数据雷达开源数据市场2026-01-21 17:1144
1月15日,MiniMax联合北京大学、复旦大学发布了编程智能体指令遵循基准数据集 OCTOBENCH。

OCTOBENCH 数据集发布
1月15日,MiniMax 联合北京大学、复旦大学发布了编程智能体指令遵循评测基准数据集 OCTOBENCH。

“脚手架”约束
OCTOBENCH 聚焦编程智能体在真实代码仓库中的指令遵循能力,重点评估大模型是否能够遵循预设的“脚手架”——即智能体执行任务时所需遵循的既定流程与规则约束(scaffold-aware instruction following)。

数据集规模与特点
OCTOBENCH 覆盖 34 种工程环境和 217 个任务,涉及三类工业级脚手架,包括 Anthropic 的 Claude Code、Kilo 以及 Factory.ai 的 Droid,并配套 7,098 项客观可判定的检查项。

数据集地址: OCTOBENCH

论文地址: OCTOBENCH: Benchmarking Scaffold-Aware Instruction Following in Repository-Grounded Agentic Coding

简讯图片

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们