five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

NTT Corporation 发布 JaParaPat 数据集, 应用在 专利翻译、机器翻译 领域

五号数据雷达开源数据市场2025-08-26 07:0814
JaParaPat 是 NTT Corporation 发布的数据集,于 2025-08-22 首发在 arXiv 应用于 专利翻译、机器翻译 领域

NTT Corporation 本次发布的数据集 JaParaPat, JaParaPat是由NTT Corporation创建的一个大规模的日英平行专利申请语料库,包含超过3000万日英句对,数据来自2000年至2021年间在日本和美国发布的专利申请。数据集内容涵盖了专利申请的标题、摘要、描述和权利要求等部分,通过基于翻译的句子对齐方法进行提取,数据集的创建过程包括从日本专利局(JPO)和美国专利商标局(USPTO)获取未审查的专利申请,以及从欧洲专利局(EPO)的DOCDB数据库获取专利家族信息。JaParaPat旨在解决专利翻译中的质量问题,并用于研究和开发机器翻译技术。

查看JaParaPat

关于 NTT Corporation , 日本电信电话株式会社(NTT Corporation)是日本最大的电信服务提供商,成立于1976年。NTT提供广泛的通信服务,包括固定电话、移动通信、互联网和数据服务。该公司在全球范围内拥有多个子公司和合作伙伴,致力于推动通信技术的创新和发展。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们