INSA Strasbourg 本次发布的数据集 DAPFAM, DAPFAM是一个基于专利家族级别的开放访问领域感知专利检索数据集。该数据集包含1247个领域平衡的全文本查询家族和45336个全文本目标家族。数据集通过基于国际专利分类(IPC)代码的创新标签方案丰富了清晰的关联判断(正向/反向引用作为积极链接,随机负面),并明确领域内或领域外关系,从而产生49869个评估对。数据集是多司法管辖区,对检索评估的预处理要求很少,对于资源有限的实体来说,其大小仍然可以管理,允许在不产生过高的计算成本的情况下进行子文档级别的检索实验。我们描述了我们的三步数据整理流程,展示了全面的数据集统计数据,并提供了使用词汇和神经检索方法的基线实验。我们的基线实验突出了跨领域专利检索中的重大挑战。数据集将公开可用(目前访问链接是这个存储库)。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)