five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

伦敦大学学院联合武汉大学发布CityRep基准数据集 破解跨城跨模态城市AI模型评估难题

五号数据雷达开源数据市场2026-05-27 05:317
2026年5月26日,伦敦大学学院联合武汉大学共同发布综合性城市表征学习基准数据集CityRep,该数据集覆盖8座城市的多源地理空间数据、内置8类典型下游任务,通过严谨的空间数据处理设计规避评估偏差,为城市表征学习、地理空间数据建模领域的模型性能公平比对提供了标准化框架。

当前,随着数字孪生城市建设、智慧国土空间规划、城市精细化治理等场景的需求持续释放,城市表征学习作为实现多源异构地理空间数据融合、城市运行规律深度挖掘的核心底层技术,已成为城市数字化与地理信息科学领域的研究热点。但长期以来,该领域始终缺乏统一的基准评估体系:现有研究的模型验证大多局限于单一城市、少量任务场景,不同数据源的空间标准不统一,且随机分割数据集的传统模式普遍存在空间泄漏问题,极易导致模型评估结果失真,不同技术路线的性能缺乏公平比对的统一标尺,极大制约了城市表征学习技术的跨场景复用与规模化落地。

2026年5月26日,伦敦大学学院联合武汉大学共同构建的综合性城市表征学习基准数据集CityRep正式首发于arXiv,为解决上述行业痛点提供了标准化解决方案。查看CityRep

据介绍,CityRep数据集覆盖全球8座不同特征的城市,整合了OpenStreetMap开源地图数据、WorldPop人口分布数据、VIIRS夜间灯光遥感数据、MODIS地表温度数据等多源公开地理空间资源,内置土地利用分类、道路密度回归、人口回归、年龄分布预测、GDP回归、夜间灯光回归、PM2.5回归、地表温度回归共8项典型下游任务,基本覆盖了城市规划、生态治理、经济分析等领域的核心地理数据分析需求。为保障评估结果的严谨性,数据集研发团队专门设计了标准化空间对齐模块,可将不同分辨率、不同坐标体系的异构空间表征统一映射到任务单元,大幅降低了用户的预处理成本;同时采用基于空间块的结构化分割策略,从根源上缓解了传统随机分割带来的空间泄漏问题,确保模型评估结果能够真实反映其在真实落地场景中的泛化能力。

作为面向城市表征学习与城市基础模型研究领域的专用基准数据集,CityRep的潜在应用价值覆盖科研与产业两大维度:科研层面,全球相关领域的研究团队可直接基于该数据集开展跨城市、跨模态、跨任务的城市表征模型泛化能力验证,无需自行搭建多源数据融合的验证环境,将大幅降低领域研究门槛,加快城市大模型、跨城迁移学习算法的研发迭代效率;产业层面,经该数据集验证成熟的城市表征模型,可广泛应用于多个落地场景:在智慧规划领域可支撑土地利用潜力评估、人口分布推演、区域经济发展预测等分析工作,提升国土空间规划的科学性;在城市运行领域可应用于PM2.5浓度预判、热岛效应监测、民生服务资源配置优化等场景,为城市精细化治理提供数据支撑;在位置服务领域可赋能商业选址、出行路径优化、城市活力分析等商业应用,进一步释放地理空间数据的要素价值。

从行业发展维度来看,CityRep数据集的发布填补了当前城市表征学习领域跨场景基准评估的空白,为全球相关研究提供了统一的性能比对标尺,将有效推动城市表征学习技术的规范化发展。其对多源公开地理数据的标准化整合、空间泄漏问题的解决方案,也为地理空间数据要素的融合共享、开放利用提供了可参考的实践样本,对数字经济背景下地理信息数据的价值释放具有积极的借鉴意义。

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们