剑桥大学计算机科学与技术系 本次发布的数据集 TSVER, TSVER是一个新的基准数据集,用于评估基于时间序列证据的事实核查系统的性能。该数据集包含287条来自38个事实核查组织的真实世界声明,以及一个包含400个时间序列的精选数据库,覆盖了广泛的领域。每个声明都与所有相关时间序列的时间框架进行了标注,并附有反映证据如何用于得出判决的判决和理由。使用LLM辅助的多步标注过程,我们提高了标注质量,并在判决上达到了κ =0.745的标注者间协议。我们还开发了一个基准,用于验证基于时间序列证据的声明,并表明即使是像Gemini-2.5-Pro这样的最先进的推理模型也面临着挑战,在判决上达到了63.37的准确率,在证据理由上达到了48.63的Ev2R得分。
关于 剑桥大学计算机科学与技术系 , 剑桥大学计算机科学与技术系是该校下属的一个系,专注于计算机科学的教育与研究,包括人工智能、理论计算机科学等多个领域。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)