首页 / 开源数据市场 / 正文

Research team behind TextGames 发布 TextGames 数据集, 应用在语言模型评估、文本游戏领域

五号数据雷达开源数据市场2025-10-07 18:0336

TextGames 是 Research team behind TextGames 发布的数据集,于 2025-10-07 首发在 arXiv 应用于语言模型评估、文本游戏领域

Research team behind TextGames 本次发布的数据集 TextGames, 该数据集名为TextGames，旨在通过挑战性的基于文本的游戏来评估大型语言模型（LLM）的能力，这些游戏需要高级技能，如模式识别、空间感知、算术和逻辑推理。该数据集允许比较人类与LLM的能力，记录的指标包括解决率、尝试次数以及解决问题所需的时间。它包含了单轮次和多轮次推理任务，并已对多种LLM进行了测试，包括开源和专有模型。其任务是评估LLM在解决基于文本的谜题游戏中的表现。

查看TextGames

Dataset card 内容：

Files and versions 内容：

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

Research team behind TextGames 发布 TextGames 数据集, 应用在 语言模型评估、文本游戏 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

Research team behind TextGames 发布 TextGames 数据集, 应用在语言模型评估、文本游戏领域