复旦大学本次发布的数据集InterveneBench,InterveneBench是由复旦大学和上海创新研究院联合开发的基准数据集,旨在评估大型语言模型在现实社会政策干预下的因果推理能力。该数据集包含744项来自高质量社会科学研究的实例,覆盖多样化的政策领域,每条实例均源自实证研究,要求模型在不依赖预定义因果图或结构方程的情况下进行推理。数据集通过多智能体流程构建,经过专家验证确保研究级质量。其核心应用是推动开放式的社会科学因果推断,解决现有模型在真实政策场景中结构不可知和干预中心化推理的局限性。
关于复旦大学,复旦大学是中国上海市的一所顶尖综合性研究型大学,创建于1905年,是国家“双一流”、“985工程”和“211工程”重点建设高校。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)