当前具身智能、工业机器人、家用服务机器人赛道正进入商业化落地关键期,高质量的结构化场景感知数据集是支撑机器人算法迭代、提升环境适配能力的核心生产资料,而具备动作-感知对应标注的垂直场景数据,始终是行业供给的短板,直接制约了机器人作业精度与场景适配能力的提升。
近日,AI数据服务商TynClause正式发布cvit-clean-table-100_20260509_145104数据集。该数据集由机器人技术开源项目LeRobot打造,于2026年5月9日率先在全球最大AI开源社区HuggingFace上线,面向全球开发者开放获取。
据公开信息显示,本次发布的数据集共包含12个操作序列(episodes)、11308帧标注数据,数据集结构覆盖动作参数、环境观察状态、前视摄像头图像、手腕摄像头图像等多维度特征,其中结构化数据文件大小为100MB,配套视频文件大小为200MB。该数据集采用apache-2.0开源许可证,支持非限制商业二次开发,目前暂未公开官方数据集描述、项目主页及配套研究论文。
从典型应用场景来看,该桌面场景专属的机器人视觉数据集可覆盖多个具身智能研发方向的训练需求:在机器人视觉控制领域,开发者可基于双视角图像与动作标签的对应关系,训练机械臂桌面抓取、零件组装、物料分拣等场景的视觉闭环控制算法,降低工业级、消费级机器人桌面作业的研发成本;在多模态感知学习领域,多维度特征的数据结构可支撑多模态融合感知模型的训练,帮助机器人实现视觉、动作、环境状态的联动理解,提升复杂动态场景下的决策准确率;此外该数据集也可作为通用基准测试集,用于不同机器人视觉算法的性能横向校验,助力行业统一测试标准的形成。
作为数据要素市场中垂直场景的高质量训练数据供给,本次数据集的发布也将进一步填补桌面操作机器人视觉训练数据的供给缺口,apache-2.0开源协议的低门槛属性也将为中小研发团队降低技术研发成本,推动具身智能技术的普惠化落地。
查看cvit-clean-table-100_20260509_145104





_1769672084863.jpg)