首页 / 开源数据市场 / 正文

enea-c发布VBTI-Align-v5_1-Replay多模态机器人数据集登陆HuggingFace赋能具身智能研发

五号数据雷达开源数据市场2026-04-24 00:2416

2026年4月23日，技术主体enea-c在全球AI开源社区HuggingFace首发基于LeRobot框架构建的VBTI-Align-v5_1-Replay多模态数据集，该数据集覆盖机器人状态、多视角视觉等时间对齐数据，将为机器人技术研发、视觉行为分析领域提供标准化训练支撑。

当前，具身智能作为人工智能领域的核心发展方向，正进入技术落地的关键周期，而机器人本体状态与视觉数据精准对齐的高质量训练数据集，是制约相关算法研发、场景落地的核心瓶颈之一。近日，技术开发者enea-c正式发布VBTI-Align-v5_1-Replay数据集，并于2026年4月23日率先登陆全球知名AI开源社区HuggingFace，面向机器人技术、视觉行为数据两大领域开放使用。

据了解，该数据集基于LeRobot机器人开发框架构建，是专门针对多模态机器人训练场景打造的对齐数据集，核心数据覆盖两大维度：一是机器人本体的运行数据，包含实时状态观察结果、动作指令、关节位置、时间戳、帧索引等核心字段；二是多视角同步视觉数据，搭载手腕、顶部、左侧、右侧共4路摄像头，完整覆盖机器人操作的全域视野。存储方面采用parquet结构化数据文件加视频文件的组合形式，其中视频数据采用480x640分辨率、30帧/秒的帧率、AV1编码格式，在保障数据精度的同时大幅压缩了存储体积，降低开发者的下载、调用成本。本次发布的数据集版本共包含3个完整任务序列（episodes）、482组时间对齐的有效数据帧，对应1项典型机器人操作任务，结构化数据文件大小为100MB，视频文件总大小为200MB，尤其适合小样本算法调优、技术原型快速验证等轻量化研发场景。

从应用价值来看，该类多模态对齐数据集的落地，将为多个细分领域提供数据支撑：在具身智能研发领域，精准对齐的动作-视觉数据可直接用于机械臂抓取、柔性操作等任务的模型训练，减少研发团队真实场景数据采集的高昂成本；在视觉行为分析领域，多视角同步数据可支撑跨模态行为识别、动作意图预测等算法的研发，为工业巡检、服务机器人人机交互等场景的技术落地提供基础支撑；在Sim2Real（仿真到真实场景迁移）研究领域，该数据集也可作为标准化验证样本，帮助开发者快速测试模型在真实物理环境中的适配性，缩短技术落地周期。

作为数据要素市场中垂直领域的特色供给，本次开源数据集的发布，进一步丰富了全球机器人训练数据集的供给体系，尤其为中小研发团队、个人开发者降低了具身智能领域的研发门槛，也为后续机器人多模态数据集的标准化建设提供了参考样本。

查看VBTI-Align-v5_1-Replay

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

enea-c发布VBTI-Align-v5_1-Replay多模态机器人数据集 登陆HuggingFace赋能具身智能研发

Dataset card内容：

Files and versions内容：

社区讨论

enea-c发布VBTI-Align-v5_1-Replay多模态机器人数据集登陆HuggingFace赋能具身智能研发