five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

康涅狄格大学发布DRIFT基准数据集 填补持续图学习分布漂移评测空白

五号数据雷达开源数据市场2026-05-15 07:3915
2026年5月13日,美国康涅狄格大学牵头的研究团队在预印本平台arXiv首发面向任务无关持续图学习的基准数据集DRIFT,可为非平稳动态图数据流的算法评估提供标准化测试底座,推动持续图学习技术的科研迭代与产业落地。

随着图学习技术在社交网络分析、金融风控、知识图谱构建、生物靶点预测等多个产业领域的落地应用,传统基于静态图、固定任务划分的算法评测体系,已经难以匹配真实场景中图数据动态演化、分布持续漂移的特性——这一行业共性痛点近期迎来了新的标准化解决方案。2026年5月13日,美国康涅狄格大学牵头的研究团队在预印本平台arXiv正式发布面向任务无关持续图学习的基准数据集DRIFT,专门针对真实世界中连续分布漂移的动态图数据流模拟需求设计,为非平稳环境下的持续图学习算法评测提供了统一的测试底座。

据公开信息显示,DRIFT数据集基于CoraFull-CL、Arxiv-CL、Reddit-CL和RomanEmpire-CL四个主流公开图数据集构建,覆盖从数万到数十万级别的节点规模,可满足不同复杂度的算法测试需求。技术层面,DRIFT采用高斯混合参数化设计,能够实现从硬任务切换到平滑分布漂移的连续过渡动态;其创建过程引入时间变化混合模型,将数据流建模为潜在任务分布的时变混合,通过控制高斯核宽度参数即可灵活调节不同程度的任务重叠,高度还原真实动态图数据流的演化特征。

从应用价值来看,DRIFT数据集的核心作用是填补传统任务划分假设与真实数据流连续演化之间的差距,可广泛应用于多个技术与产业场景的研发测试中:一是作为持续图学习算法的标准化评测基准,解决此前不同研究团队测试环境不统一、算法效果难以横向对比的问题,降低持续图学习领域的科研交流成本;二是为动态网络场景的算法研发提供测试环境,包括社交网络用户行为演化分析、金融交易网络的动态欺诈识别、物联网传感网络的异常预警、知识图谱的实时更新适配等场景的算法研发,均可通过DRIFT模拟不同程度的分布漂移环境,提前验证算法在真实落地场景中的鲁棒性;三是支撑分布漂移相关的理论研究,帮助研究者探索不同漂移程度下算法的鲁棒性边界,优化持续学习领域普遍存在的灾难性遗忘问题。

在全球AI技术加速向产业场景渗透的背景下,动态环境下的算法鲁棒性已经成为AI落地的核心瓶颈之一,DRIFT数据集的发布补上了持续图学习领域基准测试工具的短板,有望加速相关技术从实验室向产业场景的落地进程,推动动态图学习技术在数字经济各垂直领域的普及应用。

查看DRIFT

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们