杜克大学 本次发布的数据集 Who&When, Who&When数据集包含来自127个LLM多智能体系统的广泛失败日志,这些日志被细粒度地注释,将失败与特定的智能体和决定性的错误步骤相关联。该数据集旨在支持LLM多智能体系统中自动化失败归因的研究,包括算法生成的和手工制作的智能体系统,涵盖各种现实场景。每个失败日志都伴有详细的注释,说明导致任务失败的责任智能体,错误发生的步骤以及失败的原因。数据集专为识别每个失败日志中的责任智能体(谁)和对应的步骤(何时)而设计,以推动自动化失败归因研究的发展。
关于 杜克大学 , 杜克大学是美国一所著名的私立研究型大学,以卓越的教学质量和丰富的科研资源而闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)