首页 / 开源数据市场 / 正文

Li Auto 发布 GeoGramBench 数据集, 应用在空间几何推理、机器学习评估领域

五号数据雷达开源数据市场2025-05-27 07:4832

GeoGramBench 是 Li Auto 发布的数据集,于 2025-05-23 首发在 arXiv 应用于空间几何推理、机器学习评估领域

Li Auto 本次发布的数据集 GeoGramBench, GeoGramBench是一个包含500个精心筛选的问题的数据集，这些问题结合了程序绘制代码，旨在系统地评估大型语言模型（LLMs）在空间几何抽象能力方面的数学推理能力。数据集根据程序代码中编码的几何复杂性，而不是传统的数学推理复杂性，组织成一个定制的三级分类法。通过对17个前沿LLMs的全面评估，发现即使在最高抽象级别，即使是最高级的模型也达不到50%的准确率。这些结果表明，程序驱动的空间推理具有独特的挑战性，并将GeoGramBench确立为推动符号到空间几何推理研究的宝贵资源。

查看GeoGramBench

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

Li Auto 发布 GeoGramBench 数据集, 应用在 空间几何推理、机器学习评估 领域

社区讨论

Li Auto 发布 GeoGramBench 数据集, 应用在空间几何推理、机器学习评估领域