随着大模型技术向实体机器人领域渗透,视觉-语言-动作(VLA)对齐已经成为机器人实现通用智能化的核心技术路径,但长期以来,行业内公开的机器人训练数据集普遍仅包含“拿取物品”“放置零件”这类粗粒度目标指令,缺乏对动作序列、接触位置、力度约束等执行细节的标注,直接导致训练出的机器人模型无法适配高精度、高安全要求的落地场景,成为制约机器人商业化落地的核心瓶颈之一。
正是针对上述行业痛点,香港大学本次联合阿里巴巴团队推出了细粒度视觉-语言-动作对齐数据集FineVLA-Data,旨在为机器人操控提供全流程的过程级指令监督。该数据集整合了10个主流开源机器人数据集的97.2万条原始轨迹,经过动态时间规整(DTW)相似性聚类和专业团队人工验证,最终筛选形成包含47159条高代表性轨迹的语料库,单条轨迹的平均指令长度从传统数据集的9.3词扩展至96.8词,实现了10.4倍的信息密度提升。
据公开技术资料显示,该数据集通过四阶段标准化流水线构建:首先对不同来源的异构数据格式进行统一适配,解决不同开源数据集采集标准、传感器参数不兼容的问题;其次对动作状态进行规范化处理,将不同构型机器人的动作参数映射至统一空间,提升数据集的跨场景通用性;接着基于DTW算法对相似轨迹进行聚类,筛选最具代表性的样本以降低训练冗余;最后采用十维度细粒度标注框架,对动作序列、执行主体、接触区域、力度范围、场景约束等关键执行因素进行结构化描述,完整还原人类操控过程中的隐含执行规则。
该数据集目前主要应用于可操控VLA策略训练和机器人视频理解方向,后续可支撑多场景的机器人智能化迭代:工业场景下可用于精密装配、检测类机器人的模型训练,指导机器人完成芯片引脚对准、微小零件组装等高精度操作;家居服务场景下可细化“倒热水”“摆放易碎品”等指令的执行细节,降低作业风险;特种场景下可用于应急救援、危险品处理机器人的动作训练,明确操作边界以提升作业安全性。





_1769672084863.jpg)