国立信息研究所(NII) 本次发布的数据集 BIS Reasoning 1.0, BIS Reasoning 1.0数据集是首个大规模的日语三段论推理问题数据集,旨在评估大型语言模型(LLM)在信念不一致推理方面的能力。该数据集包含5000个精心构建的三段论推理问题,每个问题都包含两个前提和一个结论,其中结论在逻辑上有效,但与常见的常识信念相矛盾。数据集通过形式化规范流程进行开发,确保了逻辑严谨性和语言质量,并由母语为日语的标注员进行审查,以确保语言流畅性和自然性。BIS Reasoning 1.0数据集旨在测试LLM在处理逻辑上有效但与直觉信念相冲突的输入时的鲁棒性,并为评估LLM在需要严格逻辑严谨性的领域(如法律、医疗保健和科学研究)中的可靠性提供重要见解。
关于 国立信息研究所(NII) , 国立信息研究所(NII)是日本的一个国家级研究机构,致力于信息科学领域的研究与教育。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)