近年随着具身智能、工业机器人、服务机器人等赛道加速落地,机器人控制与感知算法的研发迭代高度依赖“动作-状态-环境”多维度对齐的标注数据集,高质量、标准化的公开训练数据已成为降低行业研发门槛、加快技术落地的核心基础资源。2026年4月22日,AI数据服务商Jusoyoung正式发布lerobot_test机器人专项数据集,该数据集基于LeRobot开源框架构建,首发于全球主流AI资源社区HuggingFace,定向服务于机器人控制、感知算法的训练与测试需求。
据悉,lerobot_test数据集共包含15个episodes、4695帧有效数据,覆盖1个专项任务,配套15条采集视频。数据集结构化内容以行业通用的parquet格式存储,视频内容采用mp4格式封装,核心特征维度包括6个浮点型动作参数、6个浮点型观察状态参数、来自camera_04的480x640x3分辨率视觉数据,同时配套完整的时间戳、帧索引、episode索引、任务索引等标注字段,数据集采集帧率为60fps,视频采用av1编码、yuv420p像素格式,无音频通道。从数据结构来看,该数据集形成了从机器人自身动作、运行状态到周边环境视觉信息的完整数据闭环,适配主流AI训练框架的输入要求,parquet格式的结构化数据可实现快速读取调用,av1编码的视频在保障画面清晰度的前提下大幅降低了文件体积,方便研发团队快速下载测试。
从应用场景来看,lerobot_test数据集可广泛适用于多个机器人研发环节的典型需求:其配套的动作参数可用于工业机械臂关节控制算法、机器人路径规划算法的基准测试;观察状态与视觉数据结合可用于服务机器人环境感知模型、具身智能Agent环境响应逻辑的训练;标准化的标注字段也可作为机器人多模态融合算法的通用测试基准,相关领域研发团队可直接复用数据集的标注成果,减少前期数据采集、清洗、标注的人力与时间成本。当前国内数据要素市场建设持续推进,垂直领域AI训练数据作为人工智能产业的核心生产要素,其供给能力直接决定了细分赛道的迭代速度,本次lerobot_test数据集的发布,进一步丰富了机器人领域公开专项训练数据的供给,为国内机器人产业的技术创新提供了基础数据支撑。





_1769672084863.jpg)