five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Allen AI发布移液器操作专用OOD开源数据集 破解生物实验机器人训练数据瓶颈

五号数据雷达开源数据市场2026-05-21 20:269
2026年5月20日,艾伦人工智能研究所(Allen Institute for AI)旗下LeRobot项目在HuggingFace首发eval_pi05_pipette_ood开源数据集,聚焦生物实验室移液器操作场景的机器人学习需求,可为多模态机器人策略训练、泛化能力验证提供标准化数据源,支撑生命科学自动化场景的技术研发。

当前生命科学领域数字化、自动化转型加速,移液作为生物实验、药物研发环节中重复度最高、精度要求最严苛的操作之一,其自动化落地成为行业刚需。但此前面向移液器操作场景的机器人学习数据集极度稀缺,尤其是用于验证模型泛化能力的分布外(OOD)场景标注数据缺失,成为制约实验室机器人商业化落地的核心瓶颈之一。

2026年5月20日,全球知名非营利人工智能研究机构艾伦人工智能研究所(Allen Institute for AI,简称Allen AI)旗下LeRobot项目正式在HuggingFace平台首发eval_pi05_pipette_ood开源数据集,专门面向机器人操作学习、移液器操作场景的研发需求,为行业提供了高质量的标准化训练与测试数据源。据了解,LeRobot是Allen AI主导的机器人学习开源项目,旨在通过开放高质量的机器人交互演示数据集,降低全球机器人学习领域的研发门槛,推动通用机器人技术向垂直场景落地。

本次发布的eval_pi05_pipette_ood数据集由双雅马哈跟随者(bi_yam_follower)机器人采集生成,覆盖3个不同的移液器操作任务,包含20个完整操作序列(episodes)、总计9269帧标注数据,数据集文件总大小约100MB,配套视频文件总大小约200MB,采用分块形式存储便于开发者调用。数据集的结构设计充分匹配多模态机器人训练需求:核心字段包含14维浮点数组格式的动作(action)与状态观测(observation.state),分别对应左右机械臂各6个关节及夹爪的位置参数;图像观测(observation.images)覆盖右、左、顶三个视角的30fps视频流,每路视频为360*640分辨率3通道彩色画面,采用AV1编码在保证画质的同时降低存储成本;此外还配套时间戳、帧索引、序列索引、全局索引、任务索引等辅助字段,可满足不同训练场景的数据调取需求。目前该数据集全部20个操作序列均划分为训练集,采用商业友好的Apache 2.0开源许可协议,科研机构、机器人厂商、生命科学自动化企业均可免费使用,无需支付授权费用。

从应用价值来看,该数据集可支撑机器人学习、模仿学习、强化学习等多个技术方向的研发,尤其适配多模态(视频+状态)机器人操作策略的训练与验证。其典型应用场景包括:高通量药物筛选实验室自动化移液机器人的操作策略优化、生物安全实验室高风险样本处理机器人的泛化能力测试、实验室自动化工作站的操作流程迭代、多模态机器人操作模型的精度基准测试等,将有效降低垂直场景机器人的研发成本,推动生命科学自动化领域的技术落地。

查看eval_pi05_pipette_ood

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们