本次发布的数据集 Amharic Passage Retrieval Dataset, 该数据集是由预处理后的阿姆哈拉语新闻文本分类数据集构建而成的,包含了大约45,000个查询-段落对,这些对是从50,706篇阿姆哈拉语新闻文章中生成的,并分为六个领域。为了确保六个新闻领域在训练集和测试集中的平衡代表,数据集采用了分层方法进行划分,且由于缺乏明确的关联性判断,采用了启发式监督方法。该数据集的规模约为45,000个查询-段落对,其任务是进行段落检索。
查看Amharic Passage Retrieval Dataset
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)