浙江大学 本次发布的数据集 OmniBench, OmniBench是一个自生成的跨平台图基准,具有自动化的管道,用于通过子任务组合合成可控制复杂性的任务。为了评估虚拟代理在图上的多样化能力,我们进一步提出了OmniEval,这是一个多维度评估框架,包括子任务级别评估、基于图的指标和跨10个能力的全面测试。我们的合成数据集包含36k个图结构任务,跨越20个场景,实现了91%的人类接受率。在图结构数据上训练表明,它可以比手动注释数据更有效地指导代理。我们对各种开源和闭源模型进行了多维评估,揭示了它们在各种能力方面的性能,为未来的进步铺平了道路。
关于 浙江大学 , 浙江大学是中国的一所综合性全国重点大学,位于浙江省杭州市,是九校联盟和世界大学联盟成员,也是中国顶尖的大学之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)