NTT Corporation 本次发布的数据集 JaParaPat, JaParaPat是由NTT Corporation创建的一个大规模的日英平行专利申请语料库,包含超过3000万日英句对,数据来自2000年至2021年间在日本和美国发布的专利申请。数据集内容涵盖了专利申请的标题、摘要、描述和权利要求等部分,通过基于翻译的句子对齐方法进行提取,数据集的创建过程包括从日本专利局(JPO)和美国专利商标局(USPTO)获取未审查的专利申请,以及从欧洲专利局(EPO)的DOCDB数据库获取专利家族信息。JaParaPat旨在解决专利翻译中的质量问题,并用于研究和开发机器翻译技术。
关于 NTT Corporation , 日本电信电话株式会社(NTT Corporation)是日本最大的电信服务提供商,成立于1976年。NTT提供广泛的通信服务,包括固定电话、移动通信、互联网和数据服务。该公司在全球范围内拥有多个子公司和合作伙伴,致力于推动通信技术的创新和发展。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)