普渡大学 本次发布的数据集 INABHYD, INABHYD 数据集是一个可编程的合成数据集,旨在测试大型语言模型 (LLMs) 的归纳和演绎推理能力。每个推理示例都包含一个不完整的世界模型和一组观察结果,智能体需要根据不完整的世界模型生成假设来解释观察结果。该数据集使用第一阶逻辑表示,并包含虚构的世界模型和观察结果,以避免训练数据污染。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)