近年来,随着具身智能产业加速落地,机器人任务学习、人机协同行为建模等方向的研发需求持续攀升,但真实场景下的多模态机器人交互训练数据供给不足,已经成为制约相关模型精度提升、落地效率优化的核心瓶颈之一。公共数据集作为降低AI研发门槛、加速技术迭代的核心基础设施,其覆盖场景的丰富度、标注的精准度直接影响相关领域的研发进程。
本次TynClause发布的cvit-task-clean-table-100E-pens数据集,是面向桌面跟随场景打磨的垂直领域专用数据集,基于LeRobot框架构建,覆盖了机器人动作、观察状态(关节位置)、前视和手腕双视角的图像视频(480x640分辨率,30fps)、时间戳、帧索引、片段索引等多维度数据,所有维度数据实现了精准时序对齐,可直接支撑端到端机器人控制模型的训练需求。整个数据集共包含66个完整任务片段、66263帧有效数据,仅覆盖1项核心桌面跟随任务,数据文件总大小约300MB,其中结构化数据占100MB、视频素材占200MB,体量轻量化的同时覆盖了任务全流程的核心特征,可大幅降低研发者的数据加载与预处理成本。本次数据集采集所用的机器人类型为so_follower,所有数据均标注为训练集,可直接用于模型训练环节。
从潜在应用场景来看,该数据集的多模态时序对齐特征,可适配多个典型具身智能研发方向:基于双视角视觉数据与关节状态数据的对应关系,研发团队可优化机器人跟随行为的视觉感知精度,适配家用桌面服务机器人的物品拾取跟随、工业协作机器人的人机协同操作等场景需求;基于完整的任务片段时序数据,可训练机器人完成端到端的桌面任务执行逻辑,降低真实场景下的调试成本,也可用于科研场景下的具身智能通用任务模型预训练。
查看cvit-task-clean-table-100E-pens
Dataset card内容:
Files and versions内容:
作为具身智能垂直领域的专用训练数据集,本次TynClause发布的cvit-task-clean-table-100E-pens进一步丰富了机器人训练数据集的供给品类,对于降低中小研发团队的技术研发门槛、推动具身智能任务学习相关技术的落地迭代具有积极意义。





_1769672084863.jpg)