five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

华盛顿大学联合艾伦AI研究所发布VideoNet数据集 为细粒度动作识别与多模态模型训练填补高价值数据缺口

五号数据雷达开源数据市场2026-05-06 04:4218
华盛顿大学联合艾伦人工智能研究所于2026年5月5日在预印本平台arXiv首发大规模细粒度视频动作识别数据集VideoNet,该数据集覆盖37个领域共1000种精细动作,标签准确率达97%,将为多模态大模型专业场景动作理解能力升级、垂直领域AI落地提供核心数据支撑。

当前,视觉语言多模态大模型的通用场景理解能力已进入规模化落地期,但在专业领域的细粒度动作识别、时序动作语义理解层面,始终缺乏标注精度高、覆盖场景广的公开训练数据集,这一短板也成为制约运动分析、医疗动作监测、工业合规识别等垂直场景AI落地的核心瓶颈。近日,华盛顿大学联合艾伦人工智能研究所正式发布大规模领域特定动作识别数据集VideoNet,相关成果已于2026年5月5日首发于预印本平台arXiv,面向全球科研及产业界开放使用。

据公开信息显示,VideoNet是目前全球覆盖领域最广的细粒度动作标注视频数据集之一,共涵盖37个领域的1000种精细动作,包含近50万条经过结构化处理的视频问答对,单条视频平均时长12.2秒,刚好覆盖绝大多数单一动作的完整时序周期,可同时适配大模型预训练、小样本微调等不同研发场景的需求。所有数据均来源于合规公开的网络视频,且经过三阶段专业化标注流程校验:第一阶段完成全品类视频的定向收集与初筛,第二阶段针对片段有效性进行交叉验证,第三阶段对动作标签做精细修剪与语义对齐,最终经多轮专家核验,数据集整体标签准确率达97%,可大幅降低模型训练过程中的噪音数据干扰,提升模型训练效率与输出精度。

该数据集的研发初衷,正是为了破解当前视觉语言模型在专业领域动作理解能力不足的行业痛点,其可落地的应用场景覆盖多个高价值垂直领域:在体育行业可用于运动员技术动作矫正、专业赛事智能判罚、大众健身AI实时指导;在医疗健康领域可辅助康复训练动作规范监测、外科手术操作流程校验、养老场景老人异常跌倒等行为预警;在工业制造领域可用于生产流水线操作合规识别、特种作业人员动作安全监测;此外也可支撑自动驾驶场景行人动作预判、内容平台违规动作智能审核等多个场景的AI模型研发。

作为数据要素在AI研发领域的典型高价值公共资源,VideoNet的发布填补了跨领域细粒度动作标注公开数据集的空白,不仅将推动全球学术界在动作理解领域的前沿研究进展,也为多模态大模型的专业场景落地提供了核心数据支撑,对完善AI训练数据要素供给体系、加速垂直行业数字化智能化升级具有重要意义。

查看VideoNet

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们