five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

高通发布带错误修正标注的多模态烹饪交互数据集 首发HuggingFace 覆盖智能烹饪指导等研发场景

五号数据雷达开源数据市场2026-05-02 02:479
2026年5月1日,高通在HuggingFace平台首发带错误修正标注的多模态第一人称烹饪交互数据集,可填补烹饪场景高质量时序标注数据空白,为智能烹饪设备、服务机器人、多模态交互系统的研发提供训练与测试支撑。

当前,面向家庭场景的智能烹饪设备、家政服务机器人、多模态交互系统正处于技术落地的关键期,烹饪作为高频家庭场景,涉及复杂的时序动作判断、实时错误识别、多模态反馈交互等需求,过往公开数据集普遍缺乏第一人称视角下的时序对齐标注、操作错误修正标注维度,成为相关技术研发的核心痛点之一。2026年5月1日,高通(Qualcomm)正式在HuggingFace平台首发名为qualcomm-interactive-cooking-dataset-ego-mistake-corrections的多模态交互式烹饪数据集,为该领域的技术研发与算法测试提供了高质量的基础数据支撑。

高通本次发布的交互式烹饪数据集是聚焦烹饪场景的多模态标注数据集,核心定位是为任务指导场景提供带时间戳的指令与反馈标注。本次公开的数据集共包含40段第一人称视角烹饪视频,累计1597条专业标注,标注类型覆盖指令(Instruction)、操作成功(Success)、操作反馈(Feedback)三大核心维度,所有标注均与视频时序、对应文本完成多模态对齐。数据集的结构化标注内容采用JSON格式存储,每个条目包含视频ID、文本列表、文本类型列表、时间戳列表四类核心字段,视频源文件采用通用MP4格式,存储路径遵循videos/.MP4的统一约定,可直接接入主流AI模型训练框架。目前该数据集仅开放用于研究用途,使用者需遵守《Qualcomm Interactive Cooking Dataset》对应的许可条款。

从应用方向来看,该数据集可支撑多个领域的技术研发:首先是智能烹饪指导系统研发,基于该数据集训练的模型可搭载于智能厨房屏、智能炒菜机、AR眼镜等终端,实时识别用户烹饪过程中的操作偏差,给出对应的修正指导,实现沉浸式交互式烹饪辅助;其次是多模态错误干预技术研发,数据集的错误反馈标注可帮助模型学习复杂时序任务下的错误识别逻辑、反馈输出规则,相关技术能力可延伸至家政服务机器人、工业操作指导等更多需要实时纠错的场景;此外该数据集还可作为流式多模态大模型的基准测试工具,用于验证大模型在实时多模态任务中的响应速度、错误识别准确率、反馈合理性等核心性能指标。

作为AI技术落地的核心底座,垂直场景高质量标注数据集的供给能力,直接决定了垂直AI技术的落地效率。本次高通发布的烹饪场景专属数据集,填补了带错误修正标注的第一人称烹饪交互数据的公开供给空白,将有效降低相关领域的研发门槛,推动家庭智能服务类技术的落地进程。

查看qualcomm-interactive-cooking-dataset-ego-mistake-corrections

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们