随着计算机视觉技术从空间维度感知向时空双维度精细化识别演进,高帧率慢动作视频相关的AI训练资源缺口正在成为制约时序超分辨率、高速场景分析等技术落地的核心瓶颈——过往同类数据集普遍存在规模小、覆盖场景有限、人工标注成本高昂等问题,难以支撑大模型对真实世界动态时序规律的学习需求。
2026年4月24日,康奈尔大学牵头的研究团队于预印本平台arXiv首发SloMo-44K数据集,这也是当前全球公开的最大规模慢动作视频数据集。据公开参数显示,该数据集共包含44,632个经过清洗的视频片段、总计1800万帧有效画面,原始视频最高帧率突破10,000FPS,可完整捕捉毫秒级的动态变化细节,覆盖体育赛事、自然现象、工业生产、日常行为等数十类活动场景与运动模式,数据多样性可适配不同垂直领域的模型训练需求。
不同于传统慢动作数据集依赖高成本人工标注的构建路径,SloMo-44K首次采用音频-视觉跨模态线索结合时序重采样的自监督技术路线,可从公开网络视频中自动完成内容筛选、标注、对齐全流程,大幅降低了高帧率数据集的构建门槛,同时也避免了人工标注带来的主观误差问题。
作为视频时序感知领域的核心基础数据资源,SloMo-44K的落地应用可覆盖多个产业与科研场景:在AIGC与内容创作领域,可支撑时序超分辨率模型训练,将普通低帧率视频一键生成高保真慢动作内容,降低影视后期、短视频创作的特效制作成本;在工业与科研领域,依托其高帧率的时序细节特性,可辅助慢动作视频分析模型完成高速设备故障检测、汽车碰撞测试细节复盘、化学反应动态观测、生物运动规律研究等任务;此外该数据集还可支撑速度条件视频生成等前沿研究,助力大模型实现对不同播放速率视频内容的可控生成,深化AI对真实世界动态演变逻辑的理解能力。





_1769672084863.jpg)