five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

港大联合阿里团队发布FineVLA-Data数据集 填补机器人细粒度操控多模态训练数据空白

五号数据雷达开源数据市场2026-05-28 11:4717
2026年5月27日,香港大学联合阿里巴巴团队在arXiv首发细粒度视觉-语言-动作对齐数据集FineVLA-Data,解决了传统机器人训练数据集仅含粗粒度目标指令、缺乏执行细节指导的痛点,为通用机器人VLA策略训练、场景化操控能力迭代提供高信息密度数据支撑。

随着大模型技术向实体机器人领域渗透,视觉-语言-动作(VLA)对齐已经成为机器人实现通用智能化的核心技术路径,但长期以来,行业内公开的机器人训练数据集普遍仅包含“拿取物品”“放置零件”这类粗粒度目标指令,缺乏对动作序列、接触位置、力度约束等执行细节的标注,直接导致训练出的机器人模型无法适配高精度、高安全要求的落地场景,成为制约机器人商业化落地的核心瓶颈之一。

正是针对上述行业痛点,香港大学本次联合阿里巴巴团队推出了细粒度视觉-语言-动作对齐数据集FineVLA-Data,旨在为机器人操控提供全流程的过程级指令监督。该数据集整合了10个主流开源机器人数据集的97.2万条原始轨迹,经过动态时间规整(DTW)相似性聚类和专业团队人工验证,最终筛选形成包含47159条高代表性轨迹的语料库,单条轨迹的平均指令长度从传统数据集的9.3词扩展至96.8词,实现了10.4倍的信息密度提升。

据公开技术资料显示,该数据集通过四阶段标准化流水线构建:首先对不同来源的异构数据格式进行统一适配,解决不同开源数据集采集标准、传感器参数不兼容的问题;其次对动作状态进行规范化处理,将不同构型机器人的动作参数映射至统一空间,提升数据集的跨场景通用性;接着基于DTW算法对相似轨迹进行聚类,筛选最具代表性的样本以降低训练冗余;最后采用十维度细粒度标注框架,对动作序列、执行主体、接触区域、力度范围、场景约束等关键执行因素进行结构化描述,完整还原人类操控过程中的隐含执行规则。

该数据集目前主要应用于可操控VLA策略训练和机器人视频理解方向,后续可支撑多场景的机器人智能化迭代:工业场景下可用于精密装配、检测类机器人的模型训练,指导机器人完成芯片引脚对准、微小零件组装等高精度操作;家居服务场景下可细化“倒热水”“摆放易碎品”等指令的执行细节,降低作业风险;特种场景下可用于应急救援、危险品处理机器人的动作训练,明确操作边界以提升作业安全性。

查看FineVLA-Data

详情页内容:

FineVLA-Data数据集技术架构图

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们