中山大学 本次发布的数据集 UPRPRC: UNIFIED PIPELINE FOR REPRODUCING PARALLEL RESOURCES -CORPUS FROM THE UNITED NATIONS, UPRPRC是一个全新的、大规模的联合国平行语料库,由中山大学的研究团队创建,旨在解决多语言数据集质量和可访问性问题。该语料库包含超过7.13亿个英文词汇,是目前为止最大的公开可用平行语料库,完全由人工翻译,非AI生成。该语料库是通过一个完全透明的可扩展工作流程构建的,包括数据抓取、文档转换、高性能文本对齐等步骤。该语料库采用了一种灵活的M-N对齐方法,在段落级别上进行任意多对多合并和分割。该语料库旨在支持机器翻译系统的研究和评估,促进多语言信息交流。
查看UPRPRC: UNIFIED PIPELINE FOR REPRODUCING PARALLEL RESOURCES -CORPUS FROM THE UNITED NATIONS
关于 中山大学 , 中山大学,简称中大,位于广东省广州市,是中国著名的综合性研究型大学,由孙中山先生创办于1924年,是中华人民共和国教育部直属高校,也是全国重点大学之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)