近年来,随着跨境旅游市场持续复苏、多语言大模型技术加速向垂直场景落地,高质量的场景化标注数据集已成为机器翻译能力迭代的核心瓶颈。尤其是旅游场景下的地理文本翻译,涉及大量小众地名、本地特色景点、区域专属地标等非通用词汇,通用翻译模型常出现译名不一致、信息错配、上下文关联错误等问题,严重影响跨语言旅游信息的获取效率与准确性,也成为阻碍跨语言地理信息公平访问的重要痛点。
近日,日本国立信息通信技术研究所(NICT)联合奈良先端科学技术大学院大学正式发布地理信息增强型日英旅行日志翻译数据集ATD-Trans,该数据集于2026年5月13日首发于学术预印本平台arXiv,为地理文本机器翻译、跨语言旅游服务等领域的研究与产业落地提供了高质量的训练与测试数据源。
据公开信息显示,ATD-Trans数据集基于现有ATD旅行日志数据集构建,覆盖90篇日本国内及海外旅行博客的日英平行文本,包含数千个已完成标注的句子与对应地理实体。整个数据集经过专业人工翻译、多阶段地理实体标注、地理知识库关联映射、翻译质量多轮评估等标准化流程处理,最终实现了文档级的地理实体统一标注与翻译质量校准,解决了传统旅行语料库中普遍存在的地理实体标注缺失、译名不统一、上下文关联不足等问题,数据质量可满足专业模型训练与学术研究的需求。
从应用价值来看,该数据集主要面向地理文本机器翻译研究领域,可支撑多个场景的技术迭代与落地:一是面向旅游场景的机器翻译模型训练,帮助优化大模型对地理实体的识别与翻译准确率,减少同地异名、地名错译等常见问题;二是跨语言旅行信息服务建设,可用于OTA平台、旅游官方平台的旅行攻略、用户生成日志的自动翻译,为境外游客提供更准确的本地旅行参考;三是跨语言地理信息检索优化,帮助海外用户精准匹配日本本地小众景点、特色目的地的相关旅行内容;四是可为旅游管理部门提供跨语言游客反馈分析的数据支撑,助力优化区域旅游服务供给。
作为垂直场景的专用标注数据集,ATD-Trans的发布也为数据要素赋能自然语言处理垂直领域落地提供了典型参考。当前通用大模型在垂直场景的适配普遍存在专业能力不足的问题,高质量、强针对性的标注语料是解决这一痛点的核心基础,本次发布的数据集不仅填补了日英旅行场景带地理标注平行语料的部分空白,其数据集构建的流程与标准也可为其他语种、其他垂直领域的翻译数据集建设提供借鉴,进一步助力跨语言信息公平访问目标的实现。





_1769672084863.jpg)