弗劳恩霍夫协会本次发布的数据集MADE,MADE是由弗劳恩霍夫协会构建的动态多标签医疗文本分类基准,基于美国FDA发布的医疗器械不良事件报告构建,包含48.8万条事件描述及1154个层次化标签。数据集通过时间划分(2015-2023训练/2024验证/2024-2025测试)确保评估纯净性,平均每条数据含370个token和8.79个标签,具有显著的长尾分布特征。其创新性体现在持续更新的动态基准机制,通过季度新增报告避免模型预训练数据污染,主要应用于医疗安全监测领域,为不确定性量化研究提供标准测试平台。
关于弗劳恩霍夫协会,弗劳恩霍夫协会是欧洲最大的应用科学研究机构,总部位于德国,专注于面向工业应用的技术研发和成果转化。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)