five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Li Auto 发布 GeoGramBench 数据集, 应用在 空间几何推理、机器学习评估 领域

五号数据雷达开源数据市场2025-05-27 07:4832
GeoGramBench 是 Li Auto 发布的数据集,于 2025-05-23 首发在 arXiv 应用于 空间几何推理、机器学习评估 领域

Li Auto 本次发布的数据集 GeoGramBench, GeoGramBench是一个包含500个精心筛选的问题的数据集,这些问题结合了程序绘制代码,旨在系统地评估大型语言模型(LLMs)在空间几何抽象能力方面的数学推理能力。数据集根据程序代码中编码的几何复杂性,而不是传统的数学推理复杂性,组织成一个定制的三级分类法。通过对17个前沿LLMs的全面评估,发现即使在最高抽象级别,即使是最高级的模型也达不到50%的准确率。这些结果表明,程序驱动的空间推理具有独特的挑战性,并将GeoGramBench确立为推动符号到空间几何推理研究的宝贵资源。

查看GeoGramBench

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们