首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】M3T - 多模态文档级机器翻译新基准数据集

五号雷达开源数据市场2024-06-14 11:2238

通过M3T，研究人员可以评估和改进模型在利用视觉线索进行高质量翻译方面的能力。

M3T是一个多模态文档级机器翻译基准数据集，由亚马逊联合马里兰大学和奈良科学技术研究所创建，旨在评估神经机器翻译（NMT）系统在翻译半结构化文档时的性能。该数据集专注于半结构化文档的翻译任务，特别针对PDF文档的视觉复杂性进行设计，以挑战并提升NMT系统在处理真实世界文档时的表现。M3T数据集包含从EUR-Lex、DocLayNet和RVL-CDIP等多个公共数据源收集的文档，覆盖法律、金融等多个领域。文档经过专业翻译和后期编辑，确保翻译质量与原文长度保持在±10%的范围内，以评估系统在保持原文布局方面的能力。该数据集的发布推动了多模态机器翻译技术的发展，解决现有NMT系统在翻译具有复杂布局的文档时的挑战。通过M3T，研究人员可以评估和改进模型在利用视觉线索进行高质量翻译方面的能力。

详情请参见五号雷达：https://www.5radar.com/dataset?id=5273213284d09f94e290639537c03f1a

社区讨论

近期热门