海法大学 本次发布的数据集 Parallel Corpus of Translationese, 本数据集名为‘Parallel Corpus of Translationese’,由海法大学计算机科学系和萨尔兰大学计算语言学系共同创建。数据集包含英法和英德双语平行语料,涵盖议会进程、文学作品、TED演讲转录及政治评论等多种文本类型,总计约347,000条。数据集经过严格预处理,确保每条数据的一对一句子对齐,适用于翻译学研究,特别是翻译方向识别。该数据集旨在解决翻译文本的自动识别问题,支持机器翻译和人类翻译研究,对翻译学领域具有重要意义。
查看Parallel Corpus of Translationese
关于 海法大学 , 海法大学是以色列的一所公立研究型大学,位于海法市,提供广泛的学术课程和研究机会,尤其在计算机科学领域有显著的研究和教学成果。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)