University of Strathclyde 本次发布的数据集 未提及具体数据集名称, 本文未提及具体数据集名称和访问地址,但描述了一种从专利中提取药品制造信息的方法。该方法包括两个主要模型:1)一个用于选择包含制造数据文本片段的方法,2)一个命名实体识别系统,用于提取操作、材料和过程条件的信息。数据集包含208,596个药品相关的专利,通过文本聚类技术、潜在狄利克雷分配(LDA)和k-Means聚类算法识别与制造相关的文本部分。命名实体识别(NER)模型采用深度神经网络,在训练集上取得了84.2%的f1分数。该数据集主要用于解决药品制造领域的信息提取问题,旨在促进新药发现和改善治疗方案。
关于 University of Strathclyde , 斯特拉斯克莱德大学(University of Strathclyde)是位于苏格兰格拉斯哥的一所公立研究型大学,是英国的四所老牌大学之一,以其高质量的教育和研究而闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)