UCSC-VLAA本次发布的数据集ClinSeek-Bench,ClinSeek-Bench 是一个用于评估临床推理能力的多模态基准数据集,源自论文《ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning》。该数据集旨在评估两种配对设置下的模型性能:1) 精选输入设置,模型直接从源基准提供的证据包中回答问题;2) 自动化证据检索设置,模型必须使用ClinSeekAgent工具从原始临床数据中主动检索证据。 数据集包含两个主要部分:纯文本电子健康记录(EHR)任务和多模态任务。纯文本部分包含1,800个示例,覆盖45个EHR子任务(包括风险预测和决策制定场景),涉及1,563名独特患者。多模态部分包含989个示例,结合了EHR数据和胸部X光(CXR)图像,其中497个示例源自EHRXQA的CXR问答任务,492个示例源自MedMod的ICU/CXR预测任务,涵盖六个任务组:CXR发现存在性、CXR发现枚举、CXR时序变化比较、24小时失代偿预测、住院死亡率预测和表型预测。 由于数据集构建自多个受保护的临床数据源(包括MIMIC-IV、MIMIC-IV-Note、MIMIC-IV-ED、MIMIC-CXR、MIMIC-CXR-JPG、EHRXQA和MedMod),为保护隐私和遵守许可协议,本版本仅发布重建完整运行时基准所需的元数据文件(ClinSeek-Bench_text.json 和 ClinSeek-Bench_multimodal.jsonl),不包含原始患者数据、SQLite数据库、胸部X光图像文件或放射报告文本。用户需要根据自身的数据使用协议,从官方来源获取原始临床数据,然后使用提供的元数据和ClinSeekAgent工具在本地重建完整的评估环境。





_1769672084863.jpg)