马里兰大学本次发布的数据集Auto-ClawEval,Auto-ClawEval是由ClawEnvKit框架自动生成的第一个大规模爪类智能体评估基准,包含24个语义类别的1040个任务环境。该数据集通过自然语言描述生成结构化任务参数,整合了模拟服务接口和自动化评分配置,其数据来源于框架的流程化合成而非人工标注。创建过程采用三阶段模块化流水线:解析器提取任务要素、生成器构建沙盒环境、验证器确保逻辑一致性,单任务生成成本仅为人工的1/13800。该数据集主要应用于爪类智能体的跨工具链评估和持续学习训练,旨在解决传统人工构建环境存在的多样性不足、迭代滞后等 scalability 瓶颈问题。
Dataset card内容:
Files and versions内容:
README内容:
关于马里兰大学,马里兰大学(University of Maryland)是美国马里兰州的一所公立研究型大学,成立于1856年,是马里兰大学系统的旗舰院校。该校在计算机科学、工程、物理学等领域具有较强研究实力。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)