five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

InternLM开源ETCHR-SFT-400K监督微调数据集 填补多模态视觉推理训练数据空白

五号数据雷达开源数据市场2026-05-24 05:5123
开源大模型体系InternLM于2026年5月22日在HuggingFace首发40万样本规模的ETCHR-SFT-400K视觉推理监督微调数据集,可广泛应用于多模态大模型微调、多模态图像编辑等领域,为破解当前多模态模型复杂视觉理解能力瓶颈提供核心数据支撑。

随着多模态大语言模型(MLLMs)在各行业的落地应用逐步深入,纯文本思维链在处理细粒度图像感知、空间变换推理、复杂图表解读等任务时的局限性逐渐凸显,高质量的垂直场景监督微调(SFT)数据已成为支撑多模态模型能力升级的核心稀缺资源。近日,开源大模型体系InternLM正式发布ETCHR-SFT-400K大规模视觉推理数据集,为行业填补了这一供给空白。

据悉,ETCHR-SFT-400K于2026年5月22日率先在HuggingFace上线,是专门面向视觉推理场景打造的监督微调数据集,核心目标是将基于FLUX.2-klein-base-9B构建的被动指令跟随图像编辑器,转化为自主的、以问题为条件的视觉推理助手。该数据集总样本量达400,000条,覆盖五大核心视觉推理赛道:细粒度感知、图表理解、迷宫求解、拼图以及空间理解,完整覆盖了当前多模态大模型落地时最常遇到的视觉推理痛点场景。每个数据样本由三部分构成:原始图像、针对该图像提出的理解性问题(同时作为图像编辑的提示词),以及经过标注的真实编辑后图像(该编辑结果可辅助大模型快速定位问题核心、完成推理回答)。数据集整体采用DiffSynth-Studio的训练格式组织,存储于`SFT-400K.parquet`文件中,开发者可直接适配现有训练框架,大幅降低数据预处理成本。

该数据集是ETCHR(Editing To Clarify and Harness Reasoning)项目的核心组成部分,该项目创新性地引入了解耦、可插拔的专用图像编辑模块,可直接接入现有多模态大语言模型的推理链路,辅助模型完成复杂视觉推理任务,彻底突破了纯文本思维链在细粒度信息聚焦、空间变换推演上的能力短板。从应用场景来看,该数据集可广泛支撑多个行业的多模态应用研发:在智慧教育领域,可用于训练能够自动批改几何题、数理化图表题的智能助教产品;在工业质检领域,可辅助多模态模型快速识别、标注工业零部件的微小瑕疵;在数字文创领域,可优化多模态图像编辑工具的指令理解能力,实现“边推理边编辑”的交互体验;在自动驾驶、家用服务机器人领域,可提升模型对空间环境的感知推理能力,优化路径规划、场景理解效果。

从数据要素市场建设的角度来看,ETCHR-SFT-400K的开源不仅降低了中小研发团队训练视觉推理类多模态模型的门槛,也为国内多模态训练数据集的标准化构建提供了可参考的范式,助力多模态大模型从“感知交互”向“认知推理”的代际升级,进一步支撑数字经济领域多模态创新应用的落地普及。

查看ETCHR-SFT-400K

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们