哈尔滨工业大学 本次发布的数据集 TMGBENCH, TMGBENCH是由哈尔滨工业大学和香港大学联合创建的一个用于评估大型语言模型(LLMs)战略推理能力的系统性游戏基准。该数据集涵盖了144种基于Robinson-Goforth拓扑结构的2×2游戏类型,每种类型包含多个实例,并通过合成数据生成技术创建了多样化的故事背景游戏。数据集的创建过程包括主题控制和人工审查,确保数据的高质量和多样性。TMGBENCH旨在通过复杂的序列、并行和嵌套游戏结构,评估LLMs在多层次决策中的战略推理能力,解决现有基准在游戏类型覆盖、数据泄露和可扩展性方面的不足。
关于 哈尔滨工业大学 , 哈尔滨工业大学是中国的顶尖工程技术学府,以工科为主,理、管、文、经、法等多学科协调发展的研究型、国际化大学。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)