five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

INSA Strasbourg 发布 DAPFAM 数据集, 应用在 专利检索、跨领域检索 领域

五号数据雷达开源数据市场2025-11-28 14:4138
DAPFAM 是 INSA Strasbourg 发布的数据集,于 2025-06-27 首发在 arXiv 应用于 专利检索、跨领域检索 领域

INSA Strasbourg 本次发布的数据集 DAPFAM, DAPFAM是一个基于专利家族级别的开放访问领域感知专利检索数据集。该数据集包含1247个领域平衡的全文本查询家族和45336个全文本目标家族。数据集通过基于国际专利分类(IPC)代码的创新标签方案丰富了清晰的关联判断(正向/反向引用作为积极链接,随机负面),并明确领域内或领域外关系,从而产生49869个评估对。数据集是多司法管辖区,对检索评估的预处理要求很少,对于资源有限的实体来说,其大小仍然可以管理,允许在不产生过高的计算成本的情况下进行子文档级别的检索实验。我们描述了我们的三步数据整理流程,展示了全面的数据集统计数据,并提供了使用词汇和神经检索方法的基线实验。我们的基线实验突出了跨领域专利检索中的重大挑战。数据集将公开可用(目前访问链接是这个存储库)。

查看DAPFAM

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们