Li Auto 本次发布的数据集 GeoGramBench, GeoGramBench是一个包含500个精心筛选的问题的数据集,这些问题结合了程序绘制代码,旨在系统地评估大型语言模型(LLMs)在空间几何抽象能力方面的数学推理能力。数据集根据程序代码中编码的几何复杂性,而不是传统的数学推理复杂性,组织成一个定制的三级分类法。通过对17个前沿LLMs的全面评估,发现即使在最高抽象级别,即使是最高级的模型也达不到50%的准确率。这些结果表明,程序驱动的空间推理具有独特的挑战性,并将GeoGramBench确立为推动符号到空间几何推理研究的宝贵资源。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)