随着智慧城市建设进入深度应用阶段,时空轨迹数据作为记录居民出行行为、反映城市运行规律的核心数据要素,其价值释放已成为数字经济领域的重要发展方向。但长期以来,城市轨迹的结构化特征与用户自然语言需求之间的细粒度对齐问题,始终是制约智慧导航、城市规划、智能交通等领域服务体验升级的核心瓶颈,且行业内一直缺乏覆盖多任务场景的统一评估基准,不同研究团队的成果难以实现横向对比。2026年5月12日首发于arXiv的TrajPrism数据集,正是针对这一行业痛点推出的重要基础研究成果:该数据集由新南威尔士大学联合香港科技大学(广州)团队共同构建,是全球范围内少有的大规模多任务语言-轨迹对齐基准数据集,核心目标是推动城市轨迹理解领域的标准化研究与产业落地。
从数据集构成来看,TrajPrism的样本覆盖了欧洲葡萄牙波尔图、北美美国旧金山、东亚中国北京三座具备差异化路网特征、出行习惯与城市发展水平的核心城市,样本的地域代表性大幅提升了数据集的通用适配性。本次发布的数据集累计纳入30万条经过脱敏处理的真实城市GPS轨迹,通过四维旅行意图分类法生成了210万个标准化任务实例,全面覆盖指令条件轨迹生成、语义轨迹检索、轨迹描述三大核心应用场景下的研究需求。为保障数据集的可扩展性与标注质量,团队采用了可复现的逆向意图重建流程,首先将完成地图匹配的原始轨迹压缩为不同的语义阶段,再基于大语言模型合成多样化、符合真实使用场景的语言标注,所有标注内容均经过严格的质量控制与人工评判,有效避免了标注偏差对研究结果的干扰。
作为面向多领域的公共基准数据集,TrajPrism的应用价值覆盖学术研究与产业落地两大维度:在学术研究层面,该数据集为全球相关领域的研究团队提供了统一的性能评估平台,可用于横向对比不同模型在轨迹保真度、检索质量、语言匹配准确性等维度的综合能力,解决了此前不同研究团队评估标准不统一、成果难以横向对比的行业痛点;在产业应用层面,该数据集的研究成果可落地到城市移动性分析、自然语言界面导航、智能交通系统研发等多个场景:例如出行服务平台可基于相关技术实现自然语言交互导航,用户无需手动设置多个途经点,仅通过口语化需求即可获得符合预期的出行路线;城市规划部门可通过分析轨迹对应的语义需求,精准识别居民的出行偏好,针对性优化公交线路、公共服务设施布局与商圈规划;智能交通系统运营方也可基于轨迹-语言对齐技术,优化网约车、物流配送的路线调度效率,甚至可通过异常轨迹的语义识别实现城市运行安全预警。本次数据集的发布,也将进一步释放时空数据要素的应用价值,为城市数字化转型提供重要的基础支撑。





_1769672084863.jpg)