复旦大学本次发布的数据集OCTOBENCH,OCTOBENCH是由复旦大学、MiniMax和北京大学联合构建的基准测试数据集,专注于评估智能编码代理在复杂脚手架环境下的指令遵循能力。该数据集包含34个独立环境和217个任务实例,覆盖三种工业级脚手架类型(Claude Code、Kilo和Droid),并配套7,098项可客观验证的检查项。数据来源于真实工业场景的代码仓库策略文件、工具模式文档等材料,通过人工标注与模型扩展相结合的方式构建。数据集通过细粒度的轨迹记录和自动化评估工具包,支持对智能体在长期多轮交互中遵守异构指令的能力进行量化分析,旨在解决现有代码生成评估中过程约束验证不足的难题。
README内容:
关于复旦大学,复旦大学是中国上海市的一所顶尖综合性研究型大学,创建于1905年,是国家“双一流”、“985工程”和“211工程”重点建设高校。
关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)