five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

复旦大学发布OCTOBENCH数据集,应用在智能编码、基准测试领域

五号数据雷达开源数据市场2026-01-17 12:0736
OCTOBENCH是复旦大学发布的数据集,于2026-01-15首发在arXiv应用于智能编码、基准测试领域

复旦大学本次发布的数据集OCTOBENCH,OCTOBENCH是由复旦大学、MiniMax和北京大学联合构建的基准测试数据集,专注于评估智能编码代理在复杂脚手架环境下的指令遵循能力。该数据集包含34个独立环境和217个任务实例,覆盖三种工业级脚手架类型(Claude Code、Kilo和Droid),并配套7,098项可客观验证的检查项。数据来源于真实工业场景的代码仓库策略文件、工具模式文档等材料,通过人工标注与模型扩展相结合的方式构建。数据集通过细粒度的轨迹记录和自动化评估工具包,支持对智能体在长期多轮交互中遵守异构指令的能力进行量化分析,旨在解决现有代码生成评估中过程约束验证不足的难题。

查看OCTOBENCH

README内容:

 

关于复旦大学,复旦大学是中国上海市的一所顶尖综合性研究型大学,创建于1905年,是国家“双一流”、“985工程”和“211工程”重点建设高校。

关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们