five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

浙江大学 发布 OmniBench 数据集, 应用在 图结构、虚拟代理评估 领域

五号数据雷达开源数据市场2025-06-12 07:1846
OmniBench 是 浙江大学 发布的数据集,于 2025-06-10 首发在 arXiv 应用于 图结构、虚拟代理评估 领域

浙江大学 本次发布的数据集 OmniBench, OmniBench是一个自生成的跨平台图基准,具有自动化的管道,用于通过子任务组合合成可控制复杂性的任务。为了评估虚拟代理在图上的多样化能力,我们进一步提出了OmniEval,这是一个多维度评估框架,包括子任务级别评估、基于图的指标和跨10个能力的全面测试。我们的合成数据集包含36k个图结构任务,跨越20个场景,实现了91%的人类接受率。在图结构数据上训练表明,它可以比手动注释数据更有效地指导代理。我们对各种开源和闭源模型进行了多维评估,揭示了它们在各种能力方面的性能,为未来的进步铺平了道路。

查看OmniBench

关于 浙江大学 , 浙江大学是中国的一所综合性全国重点大学,位于浙江省杭州市,是九校联盟和世界大学联盟成员,也是中国顶尖的大学之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们