谷歌公司 本次发布的数据集 Patents Phrase to Phrase Semantic Matching Dataset, Patents Phrase to Phrase Semantic Matching Dataset 是由谷歌公司创建的一个专注于专利技术概念的语义匹配数据集。该数据集包含近50,000对经过人工评级的短语对,每对短语都附有一个合作专利分类(CPC)作为上下文。数据集通过提取专利中的关键短语并结合上下文CPC分类来创建,旨在解决短语歧义和对抗性关键词匹配问题。此数据集的应用领域主要是在自然语言处理中,特别是在专利和科学出版物的语义文本相似性测量上,以推动模型在处理技术术语方面的性能提升。
查看Patents Phrase to Phrase Semantic Matching Dataset
关于 谷歌公司 , 谷歌公司是一家全球知名的科技公司,主要从事互联网搜索、云计算、广告技术等业务,开发并提供大量基于互联网的产品与服务。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)