卡内基梅隆大学 本次发布的数据集 PMOA-TTS, PMOA-TTS数据集由卡内基梅隆大学机器学习系、信息系統与公共政策学院、美国国立卫生研究院国家医学图书馆的研究人员创建,包含124,699份来自PubMed Open Access的病例报告,每份报告都通过可扩展的基于大型语言模型(LLM)的管道转换为结构化的(事件,时间)时间序列。该数据集通过启发式过滤和Llama 3.3识别单个患者的病例报告,并使用Llama 3.3和DeepSeek R1进行提示驱动提取,最终生成了超过560万个带时间戳的临床事件。该数据集在临床和人口统计覆盖范围广泛,并在下游生存预测任务中表现出色,嵌入从提取的时间序列中获得的预测性能可达0.82 ± 0.01。PMOA–TTS为时间线提取、时间推理和纵向建模提供了可扩展的基础,可用于生物医学自然语言处理。数据集可在Hugging Face平台上获取。
Dataset card 内容:
Files and versions 内容:
关于 卡内基梅隆大学 , 卡内基梅隆大学是一所位于美国宾夕法尼亚州匹兹堡的私立研究型大学,以其在科技、工程、艺术和商业等领域的教育质量闻名,其机器学习系在全球享有很高的声誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)