剑桥大学语言技术实验室 本次发布的数据集 COMETA, COMETA数据集是由剑桥大学语言技术实验室创建的,包含20,015条来自Reddit的英文生物医学实体提及,这些提及均由专家标注并与SNOMED CT知识图谱链接。数据集涵盖了从症状、疾病到化学物质、基因等多种概念,旨在解决社交媒体中健康领域实体链接的复杂性问题。创建过程中,研究人员从Reddit中筛选并爬取了高质量的健康相关讨论,通过Flair NER系统识别实体,并由专业注释者进行标注。COMETA数据集的应用领域主要集中在提升社交媒体中健康相关文本的实体链接技术,特别是在处理非正式语言和复杂医学术语时的挑战。
关于 剑桥大学语言技术实验室 , Language Technology Lab @ University of Cambridge是剑桥大学的语言技术研究实验室,专注于自然语言处理和机器学习模型的开发。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)