中山大学 本次发布的数据集 MTCMB, MTCMB是一个多任务基准框架,用于评估大型语言模型(LLM)在中医药知识、推理和安全方面的能力。它包含12个子数据集,涵盖了五个主要类别:知识问答、语言理解、诊断推理、处方生成和安全评估。该基准集整合了真实世界案例记录、国家执业医师资格考试和经典文本,为中医药能力模型提供了一个真实和全面的测试平台。初步结果表明,当前的大型语言模型在基础知识方面表现良好,但在临床推理、处方规划和安全合规方面仍存在不足。这些发现突出了迫切需要像MTCMB这样的领域对齐基准来指导更胜任和可靠的医疗人工智能系统的开发。
README 内容:
关于 中山大学 , 中山大学是中国广东省广州市的一所综合性大学,是中国南方的重要高等学府之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)