ZB MED – Information Centre for Life Sciences 本次发布的数据集 Four Shades of Life Sciences (FSoLS), FSoLS数据集是一个新颖的、标记化的语料库,包含2,603篇关于14个生命科学主题的文章,从17个不同来源中检索,并分为四个生命科学出版物类别。数据集的设计旨在帮助机器学习模型识别和区分虚假信息文本。该数据集不仅包含完整的文章,而且涵盖了科学文本、通俗文本、替代科学文本和虚假信息文本等多种文本类型,从而为下游任务中的语言风格和内容分析提供了可能。FSoLS数据集的创建过程强调了平衡性,包括平衡的主题、数据来源和类别,以确保模型学习的是文本风格而非特定内容。该数据集的应用领域主要在于帮助用户在信息时代有效导航,特别是在健康和生命科学领域,识别和防止虚假信息的传播。
查看Four Shades of Life Sciences (FSoLS)
README 内容:
关于 ZB MED – Information Centre for Life Sciences , -
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)