本次发布的数据集 ProCIS, 该数据集名为ProCIS,包含了Reddit论坛上的多条讨论线索,在这些讨论中,多个用户相互交流,每场对话至少包含一条含有维基百科链接的评论。用户添加的这些维基百科文章通常提供了与对话相关的额外上下文或背景信息,因此它们被视为检索目标。此外,未来开发集按时间顺序包含了训练集之后的对话,这有助于评估检索模型对新兴概念的一般化能力。测试集则包含了逐轮的人工密集相关性标注。该数据集的规模包括5,315,384篇维基百科文章,其中子集分别包含2,830,107条(训练集)、4,165条(开发集)、3,385条(未来开发集)和100条(测试集)对话。该数据集的任务是研究多方对话中的主动搜索。
README 内容:
关于 , 国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)