爱丁堡大学 本次发布的数据集 Plancraft, Plancraft是由爱丁堡大学创建的多模态评估数据集,旨在测试LLM代理在Minecraft合成环境中的规划能力。该数据集包含文本和多模态接口,基于Minecraft的合成GUI,并集成了Minecraft Wiki作为知识库,用于评估工具使用和检索增强生成(RAG)能力。数据集包含1145个训练样本、570个验证样本和580个测试样本,总共有2295条数据,涵盖了从简单到复杂的合成任务。数据集的创建过程包括从Minecraft Wiki中提取合成配方,并通过Python实现合成逻辑和视觉表示。Plancraft的应用领域主要集中在LLM代理的规划能力评估,旨在解决代理在复杂环境中的决策和任务可行性判断问题。
README 内容:
关于 爱丁堡大学 , 爱丁堡大学是一所位于英国苏格兰首府爱丁堡的世界著名公立综合研究型大学,拥有悠久的历史和卓越的学术声誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)