five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Microsoft发布Orchard数据集,应用在智能体软件工程、网页GUI智能交互领域

五号数据雷达开源数据市场2026-05-16 05:1628
Orchard是Microsoft发布的数据集,于2026-05-15首发在HuggingFace应用于智能体软件工程、网页GUI智能交互领域

Microsoft本次发布的数据集Orchard,Orchard数据集是一个开源智能体建模轨迹数据集,伴随论文《Orchard: An Open-Source Agentic Modeling Framework》发布。它包含两个由强大教师模型蒸馏生成的并行智能体建模数据集,均在Orchard Env沙箱基础设施中产生。 **SWE子集(软件工程)**:包含107,185条涉及2,788个GitHub仓库的多轮软件工程轨迹。每条轨迹都标注了代理的最终补丁是否通过问题的隐藏黄金测试套件(通过`metadata.verify_status`字段表示),既包含成功轨迹也包含失败轨迹。数据来源于两个上游的真实GitHub错误修复问题集合(SWE-rebench和Scale-SWE),并使用了两种教师模型(MiniMax-M2.5和Qwen3.5-397B-A17B)和两种代理框架(OpenHands和mini-swe-agent)来生成轨迹,以最大化行为多样性。数据格式遵循OpenAI风格的聊天模式,包含`tools`(工具定义)、`messages`(多轮对话)和`metadata`(元数据)三个顶级字段。 **GUI子集(图形用户界面)**:包含来自网页浏览GUI代理(`pae-webvoyager`基准)的3,070个成功单步决策点,覆盖409个独特任务。与SWE子集(每行代表一条完整轨迹)不同,GUI子集的每一行代表一个多步轨迹中的一个决策点,包含到该步骤为止的对话历史、一张当前页面的截图(存储为HuggingFace `Image`特征)以及一个经过评判验证的标量`reward`。该子集仅包含被评判为成功的决策点(`reward = 1.0`, `status = "completed"`)。任务涵盖六个广泛领域:生活方式与休闲、科学与研究、杂项、娱乐、职业与教育、旅行与交通。 该数据集旨在用于训练和评估智能体模型,特别适用于软件工程任务(如代码修复)和网页浏览GUI任务。论文中展示了使用该数据集训练的模型在SWE-bench和多个GUI基准测试上取得了显著的性能提升。数据集采用Parquet格式存储,并提供了详细的数据模式、统计信息和用法示例。

查看Orchard

Dataset card内容:

 

Files and versions内容:

 

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们