five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

哈尔滨工业大学 发布 TMGBENCH 数据集, 应用在 大型语言模型、战略推理 领域

五号数据雷达开源数据市场2024-10-16 07:0643
TMGBENCH 是 哈尔滨工业大学 发布的数据集,于 2024-10-14 首发在 arXiv 应用于 大型语言模型、战略推理 领域

哈尔滨工业大学 本次发布的数据集 TMGBENCH, TMGBENCH是由哈尔滨工业大学和香港大学联合创建的一个用于评估大型语言模型(LLMs)战略推理能力的系统性游戏基准。该数据集涵盖了144种基于Robinson-Goforth拓扑结构的2×2游戏类型,每种类型包含多个实例,并通过合成数据生成技术创建了多样化的故事背景游戏。数据集的创建过程包括主题控制和人工审查,确保数据的高质量和多样性。TMGBENCH旨在通过复杂的序列、并行和嵌套游戏结构,评估LLMs在多层次决策中的战略推理能力,解决现有基准在游戏类型覆盖、数据泄露和可扩展性方面的不足。

查看TMGBENCH

关于 哈尔滨工业大学 , 哈尔滨工业大学是中国的顶尖工程技术学府,以工科为主,理、管、文、经、法等多学科协调发展的研究型、国际化大学。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们