five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
M3T - 多模态文档级机器翻译新基准数据集
github2024-06-12 更新2024-06-13 收录2450
多模态机器翻译
文档级翻译
资源简介:
M3T是一个多模态文档级机器翻译基准数据集,由亚马逊联合马里兰大学和奈良科学技术研究所创建,旨在评估神经机器翻译(NMT)系统在翻译半结构化文档时的性能。该数据集专注于半结构化文档的翻译任务,特别针对PDF文档的视觉复杂性进行设计,以挑战并提升NMT系统在处理真实世界文档时的表现。M3T数据集包含从EUR-Lex、DocLayNet和RVL-CDIP等多个公共数据源收集的文档,覆盖法律、金融等多个领域。文档经过专业翻译和后期编辑,确保翻译质量与原文长度保持在±10%的范围内,以评估系统在保持原文布局方面的能力。该数据集的发布推动了多模态机器翻译技术的发展,解决现有NMT系统在翻译具有复杂布局的文档时的挑战。通过M3T,研究人员可以评估和改进模型在利用视觉线索进行高质量翻译方面的能力。
原始地址:
提供机构:
AWS AI Labs、马里兰大学、奈良科学技术研究所
创建时间:
2024-06-12
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们