首页 / 开源数据市场 / 正文

港大联合阿里团队发布FineVLA-Data数据集填补机器人细粒度操控多模态训练数据空白

五号数据雷达开源数据市场2026-05-28 11:4717

2026年5月27日，香港大学联合阿里巴巴团队在arXiv首发细粒度视觉-语言-动作对齐数据集FineVLA-Data，解决了传统机器人训练数据集仅含粗粒度目标指令、缺乏执行细节指导的痛点，为通用机器人VLA策略训练、场景化操控能力迭代提供高信息密度数据支撑。

随着大模型技术向实体机器人领域渗透，视觉-语言-动作（VLA）对齐已经成为机器人实现通用智能化的核心技术路径，但长期以来，行业内公开的机器人训练数据集普遍仅包含“拿取物品”“放置零件”这类粗粒度目标指令，缺乏对动作序列、接触位置、力度约束等执行细节的标注，直接导致训练出的机器人模型无法适配高精度、高安全要求的落地场景，成为制约机器人商业化落地的核心瓶颈之一。

正是针对上述行业痛点，香港大学本次联合阿里巴巴团队推出了细粒度视觉-语言-动作对齐数据集FineVLA-Data，旨在为机器人操控提供全流程的过程级指令监督。该数据集整合了10个主流开源机器人数据集的97.2万条原始轨迹，经过动态时间规整（DTW）相似性聚类和专业团队人工验证，最终筛选形成包含47159条高代表性轨迹的语料库，单条轨迹的平均指令长度从传统数据集的9.3词扩展至96.8词，实现了10.4倍的信息密度提升。

据公开技术资料显示，该数据集通过四阶段标准化流水线构建：首先对不同来源的异构数据格式进行统一适配，解决不同开源数据集采集标准、传感器参数不兼容的问题；其次对动作状态进行规范化处理，将不同构型机器人的动作参数映射至统一空间，提升数据集的跨场景通用性；接着基于DTW算法对相似轨迹进行聚类，筛选最具代表性的样本以降低训练冗余；最后采用十维度细粒度标注框架，对动作序列、执行主体、接触区域、力度范围、场景约束等关键执行因素进行结构化描述，完整还原人类操控过程中的隐含执行规则。

该数据集目前主要应用于可操控VLA策略训练和机器人视频理解方向，后续可支撑多场景的机器人智能化迭代：工业场景下可用于精密装配、检测类机器人的模型训练，指导机器人完成芯片引脚对准、微小零件组装等高精度操作；家居服务场景下可细化“倒热水”“摆放易碎品”等指令的执行细节，降低作业风险；特种场景下可用于应急救援、危险品处理机器人的动作训练，明确操作边界以提升作业安全性。

查看FineVLA-Data

详情页内容：

社区讨论

近期热门

港大联合阿里团队发布FineVLA-Data数据集 填补机器人细粒度操控多模态训练数据空白

详情页内容：

社区讨论

港大联合阿里团队发布FineVLA-Data数据集填补机器人细粒度操控多模态训练数据空白