当前人形机器人、工业分拣机器人赛道正处于快速落地期,视觉识别、精准抓取作为机器人完成环境交互、作业任务的核心能力,其算法训练高度依赖覆盖真实操作场景、多维度同步标注的高质量数据集。但目前公开领域针对细分分拣场景、同时包含仿真与真实环境数据、多机位视角采集的垂直数据集供给仍存在明显缺口,是制约中小研发团队降低算法训练成本、缩短产品落地周期的核心瓶颈之一。
近日,开发者arjunsinghyadav2正式发布全新机器人领域专用数据集blue_sort_black_bg_color_cups_sim_and_real_100,该数据集于2026年4月29日首发于HuggingFace平台,基于开源机器人学习框架LeRobot创建,主要面向机器人技术研发场景。查看blue_sort_black_bg_color_cups_sim_and_real_100
据公开数据集卡片信息显示,本次发布的数据集包含100个完整分拣动作剧集,总帧数量达66112帧,采集帧率为30fps,其中结构化数据文件大小为100MB,配套视频文件大小为200MB。数据集的标注维度全面覆盖机器人学习训练的核心特征:包括6自由度动作参数、6自由度观察状态参数,同时同步采集了手腕视角、顶部视角两类机器人常用机位的图像数据,图像分辨率为480x640、3通道RGB格式,同步配套时间戳、帧索引、剧集索引等结构化标注信息,可直接对接主流机器人学习模型的训练流程,无需额外做数据格式适配。值得注意的是,该数据集采用Apache-2.0开源许可证,对商业应用友好,开发者无需额外授权即可免费用于非商用或商用研发场景,大幅降低了中小研发团队的数据采购成本。
从应用价值来看,该数据集聚焦黑背景下的彩色杯子分拣场景,同时覆盖仿真与真实环境数据,可广泛应用于机器人视觉分类、物体抓取操作等领域的算法研发:一方面可用于工业产线小物件分拣机器人的颜色识别、抓取点位测算算法训练,提升产线分拣的准确率与效率;另一方面也可支撑家用服务机器人桌面物品整理、物品归位功能的研发,优化家用机器人的交互体验;此外,其虚实结合的数据特征,还可用于机器人学习领域的Sim2Real(仿真到真实场景迁移)算法验证,帮助研发团队降低真实环境测试的成本与安全风险。在当前数据要素成为AI产业核心生产资料的背景下,这类垂直场景的高质量开源数据集的上线,将进一步丰富机器人领域的训练数据供给,推动机器人核心交互能力的技术迭代与落地普及。





_1769672084863.jpg)