随着编码智能体成为大模型落地最快的垂直场景之一,GitHub Copilot、Claude Code等产品已成为开发者日常研发的核心工具,但长期以来,行业缺乏真实工作场景下的编码智能体全链路负载数据——现有相关数据集多为合成生成或固定任务式采集,无法还原开发者真实使用过程中的交互路径、上下文变化、工具调用习惯等特征,直接制约了编码智能体的性能优化与LLM服务系统的效率提升。
近日,由华盛顿大学、武汉理工大学和上海交通大学的联合研究团队打造的TraceLab数据集正式首发,正是瞄准这一行业痛点,填补了真实世界编码智能体使用模式数据的空白。该数据集的原始数据来源于43名开发者在约八个月内对Claude Code和Codex两类主流编码智能体的日常使用记录,覆盖20多个模型版本,最终梳理形成约4300个完整会话,涵盖约350000个LLM交互步骤和430000个工具调用记录。为保障数据可用性与用户隐私,研究团队通过专属自动化流水线对原始日志完成了特征提取、格式标准化与全量匿名化处理,完整保留了会话级交互路径、多步工具调用链路、上下文窗口动态增长等真实使用场景下的核心特征,最大程度还原了编码智能体在实际研发场景中的工作负载特性。
从产业应用价值来看,TraceLab的落地将为两大核心方向的研究提供核心数据支撑:面向编码智能体研发侧,研究人员可基于该数据集挖掘真实用户的编码需求特征、工具调用习惯,针对性优化编码智能体的任务理解准确率、工具调用效率与结果输出质量,解决当前编码智能体在复杂任务中步骤冗余、上下文丢失等常见痛点;面向大模型服务系统侧,服务商可基于真实负载特征优化服务部署策略、缓存匹配规则、算力调度方案,有效降低编码智能体服务的响应时延与运营成本,为面向企业级的大规模编码智能体服务落地提供支撑。此外,该数据集也可作为通用评测基准,为不同编码智能体的性能对比、大模型编码能力的迭代优化提供统一的真实场景验证标准。作为AI训练数据领域的核心垂直场景资源,这类真实场景采集的高质量数据集,不仅为大模型在软件工程领域的落地提供了核心数据支撑,也为垂直领域数据集的标准化采集、处理与开放提供了参考样本,将进一步推动大模型产业从通用能力研发向垂直场景落地的进程。
首页 / 开源数据市场 / 正文
中美三校联合发布TraceLab编码智能体数据集 填补LLM真实工作负载研究空白
五号数据雷达开源数据市场2026-07-01 04:085
由华盛顿大学牵头,联合武汉理工大学、上海交通大学共同研发的大规模编码智能体工作负载追踪数据集TraceLab正式在arXiv首发,该数据集覆盖真实开发者8个月的编码智能体使用全链路数据,将为编码智能体性能迭代、LLM服务系统效率优化提供核心数据支撑。

社区讨论
近期热门




_1769672084863.jpg)