作为当前人工智能领域最具落地潜力的方向之一,具身智能的技术迭代高度依赖高质量的多模态场景训练数据,而机器人抓取作为具身智能的核心基础能力,长期面临特定场景标注数据稀缺、采集成本高的行业痛点。近日,AI数据集开发者kunhsiang正式对外发布全新专用数据集,为行业填补了标准化物体抓取场景的训练数据缺口。
kunhsiang本次发布的数据集eval_nhsiang_pi05_so101_sc1_new_30k_grasp_the_red_box_20260504-192820由机器人学习框架LeRobot参与创建,主要面向机器人技术研发领域,于2026年5月4日首次上线HuggingFace社区。该数据集采用列式存储的parquet格式,可大幅降低AI训练过程中的数据读取与预处理成本,采用apache-2.0开源许可证,支持开发者免费商用、修改与二次分发,对中小研发团队十分友好。
从数据集参数来看,该产品为单任务红盒抓取场景量身打造,总帧数达836,视频帧率为30fps,同步覆盖front(正面全局)、top(俯视全局)、gripper(夹爪第一视角)三类视角的视频文件,且配套全程同步的机器人动作标注数据,多视角联动的结构可以完整还原抓取全流程的空间位置、夹爪力度、路径规划等全维度信息,有效避免单一视角数据带来的遮挡误差、信息不全等问题,可大幅提升抓取算法训练的鲁棒性。
从应用场景来看,该数据集可广泛用于多个具身智能研发场景:一是可作为工业分拣机器人的训练素材,支撑电商仓储、3C制造产线中红色标准化料盒的自动上下料、分拣、码垛等场景的算法迭代;二是可作为具身智能抓取算法的通用基准测试集,红盒作为行业通用的标准化测试物体,该数据集可用于不同抓取算法的精度、成功率、鲁棒性的横向校验;三是可用于机器人夹爪动力学仿真的验证,配套的动作标注数据可对接仿真系统,优化夹爪的力度控制、路径规划算法,降低实体机器人调试的时间与成本。
作为垂直场景的高质量训练数据产品,本次数据集的发布也为国内数据要素市场的垂直品类供给提供了参考:当前AI训练数据的供给正在从通用化向垂直场景化演进,面向特定任务的小样本高质量标注数据,正在成为AI技术落地的核心刚需,这类商用友好的开源数据集的普及,也将进一步降低AI技术的研发门槛,推动整个人工智能产业的落地效率提升。
查看eval_nhsiang_pi05_so101_sc1_new_30k_grasp_the_red_box_20260504-192820





_1769672084863.jpg)