five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

艾伦AI研究所发布双手机器人移液OOD数据集 开源开放赋能机器人技能学习与实验室自动化

五号数据雷达开源数据市场2026-05-21 19:235
全球知名非营利人工智能研究机构Allen Institute for AI(艾伦人工智能研究所)于2026年5月20日在Hugging Face平台首发开源eval_xvla_pipette_ood数据集,该数据集面向双手机器人实验室移液操作场景构建,可为机器人操作算法研发、实验室自动化落地提供标准化训练与测试资源。

近年来,随着生命科学研发数字化、自动化需求持续释放,实验室场景的服务机器人部署增速显著,而双手机器人在精细移液、样本处理等高精度操作上的算法训练,长期缺乏覆盖多元场景、多维度标注的标准化开源数据集,同时机器人操作模型的分布外(OOD)泛化能力测试,也一直是制约相关技术从实验室走向落地的核心痛点之一。作为全球知名的非营利人工智能研究机构,Allen Institute for AI(艾伦人工智能研究所)此次发布的eval_xvla_pipette_ood数据集,正是面向上述行业需求推出的专用机器人任务数据集,该数据集采用LeRobot开源机器人学习工具栈创建,专为bi_yam_follower型双手机器人设计,包含23个完整任务片段(episodes),总计11466帧标注数据,覆盖3种不同的移液操作任务。数据集结构化数据以Parquet格式存储,总数据文件大小约100MB,配套视频文件大小约200MB,视频帧率为30fps,兼顾了数据读取效率和存储便携性,中小研发团队可快速下载调用。

该数据集的核心标注维度覆盖了双手机器人操作的全量核心参数:动作(action)为14维浮点数组,分别对应左、右机械臂的6个关节位置和夹爪位置;状态观测(observation.state)同样为14维浮点数组,可实时反映机器人关节运行状态;多视角图像观测(observation.images)包括右侧、左侧和顶部三个视角的RGB视频流,分辨率均为360x640、3通道,采用高压缩比的AV1编码,在保证画面清晰度的前提下大幅降低了传输和存储成本;此外数据集还配套了时间戳、帧索引、片段索引、全局索引和任务索引等结构化标注字段,可直接对接主流机器人学习框架,省去大量数据预处理工作。目前数据集仅开放训练集(splits.train: 0:23),适用于机器人模仿学习、强化学习或行为克隆等算法研发任务,尤其适合研究基于多视角视觉输入的双手机器人控制方案。

从应用价值来看,该数据集可在两大领域释放核心作用:在机器人操作技能学习领域,其自带的分布外场景设计可用于测试机器人控制算法的泛化能力,为实验室精细操作场景的OOD测试提供了新的标准化数据选择;在实验室自动化领域,移液操作是生命科学、化学分析等实验室中最高频的重复性操作之一,基于该数据集训练的机器人模型,可落地于高通量药物筛选、生物样本前处理、试剂精准分装等场景,降低人工操作的误差率和生物安全风险,提升实验流程的一致性和运行效率。该数据集采用Apache 2.0开源许可证,允许商业使用、修改和二次分发,对科研团队和商业化研发团队均十分友好。

查看eval_xvla_pipette_ood

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们