ServiceNow 本次发布的数据集 Don’t Answer Bench (DNA Bench), DNA Bench是一个由ServiceNow创建的新型基准数据集,旨在评估大型语言模型在理解复杂推理触发因素并避免不必要推理方面的能力。该数据集包含150个对抗性设计的提示,对人类来说简单易懂,但对许多最近突出的推理型LLM来说却难以应对。数据集分为五个类别,每个类别针对不同的挑战,反映真实世界的失败模式。数据集通过手动设计和使用OpenAI GPT-4o生成提示的方式创建,旨在揭示LLM在处理具有误导性的简单问题时过度推理的倾向。
查看Don’t Answer Bench (DNA Bench)
关于 ServiceNow , ServiceNow是一家全球领先的企业云服务平台公司,专注于IT服务管理、人力资源管理、客户服务和安全运营等领域。该公司通过其平台帮助企业自动化和优化业务流程,提高效率和客户满意度。ServiceNow成立于2004年,总部位于美国加利福尼亚州圣克拉拉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)