随着通用人工智能技术落地进程加快,可自主完成多步骤任务的环境感知型智能代理成为产业界关注的核心方向,但这类代理在处理跨系统操作、复杂数字工作流任务时,长期面临高质量标注训练数据稀缺、真实数据隐私合规风险高、场景覆盖不全等行业痛点,制约了智能代理从单一问答向复杂任务执行的能力升级。近日,中国人民大学高瓴人工智能学院联合IQuest Research等机构构建的大规模合成数据集ClawGym-SynData正式发布,为上述行业痛点提供了全新的解决方案。
据了解,该数据集共包含1.35万条经过筛选的Claw风格任务数据,采用角色驱动自上而下与技能锚定自下而上的双通道生成策略构建,内容覆盖多步骤文件操作、多类型工具调用及工作空间状态更新等全链路数字工作流场景,同时配套了完整的模拟工作环境资源和代码检查+规则评估的混合验证机制,确保数据的场景适配性与标注准确性。其数据全部来源于个性化用户画像与原子技能组合生成的合成数据,从根源上规避了真实用户数据的隐私风险,核心目标就是解决环境感知型智能代理在复杂数字工作流中的训练数据稀缺问题,可直接支持OpenClaw框架下的智能代理开发与效果评估。
从应用价值来看,ClawGym-SynData可覆盖多类产业与科研场景:在企业数字化领域,可用于训练面向智能办公、跨系统流程自动化的数字员工,降低企业RPA(机器人流程自动化)系统的定制开发成本,提升行政、财务、供应链等环节的流程处理效率;在科研领域,可为通用智能代理、具身智能数字端训练等方向的研究提供标准化的测试与训练基准,降低相关研究的数据集构建门槛;在工具生态领域,可支撑低代码平台、智能生产力工具的辅助功能开发,优化产品的用户操作体验。作为AI训练数据这一核心数据要素的细分成果,ClawGym-SynData的发布也为我国合成数据赛道的细分场景落地提供了参考样本,助力数据要素市场在AI基础资源领域的价值释放。
查看ClawGym-SynData
首页 / 开源数据市场 / 正文
中国人民大学发布ClawGym-SynData合成数据集 破解智能代理复杂工作流训练数据瓶颈
五号数据雷达开源数据市场2026-05-01 06:0125
2026年4月30日,中国人民大学高瓴人工智能学院联合IQuest Research等机构发布大规模合成数据集ClawGym-SynData并首发于arXiv,该数据集瞄准环境感知型智能代理训练数据稀缺痛点,可为智能代理开发、数字工作流模拟等场景提供核心数据支撑。

社区讨论
近期热门




_1769672084863.jpg)