five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

InternLM发布ETCHR-GRPO-10K多模态数据集 上线HuggingFace破解视觉推理编辑痛点

五号数据雷达开源数据市场2026-05-23 03:5516
2026年5月22日,大模型体系InternLM在全球开源AI平台HuggingFace首发ETCHR-GRPO-10K训练数据集,该数据集包含1万条带量化评估维度的定向训练样本,可解决多模态大模型在精细视觉感知、复杂空间变换类任务中的推理短板,支撑视觉问答、多模态模型训练评估等需求。

当前多模态大模型的商业化落地进程持续加快,在图像生成、内容编辑、工业视觉、专业信息解析等场景的应用需求不断攀升,但行业普遍面临共性技术瓶颈:多数多模态大模型依赖纯文本思维链完成推理,在处理需要精细视觉焦点识别、复杂空间变换的任务时,容易出现细节偏差、逻辑错误等问题——比如图像编辑时遗漏用户指定的细粒度修改要求、解析专业图表时混淆数据维度、处理空间类任务时出现路径或结构错误,而高质量的定向训练数据集,是解决这一痛点的核心基础。

2026年5月22日,国内知名大模型研发体系InternLM正式发布ETCHR-GRPO-10K数据集,并首发上线HuggingFace面向全球研发团队开放使用。据官方介绍,该数据集是专门为增强ETCHR(解耦的视觉推理助手模型)编辑能力打造的GRPO(分组相对策略优化)训练数据集,总样本量达10000条,核心目标是通过标准化的引导奖励机制,系统性优化多模态模型的图像编辑与视觉推理性能。

不同于普通的多模态训练数据集,ETCHR-GRPO-10K的每个样本均包含三个核心模块:一是待编辑的原始图像,二是明确的自然语言编辑指令,三是与图像绑定的理解任务——后者也是该数据集的核心特色之一,可实现对模型编辑效果的量化评估,解决了传统GRPO训练中奖励信号模糊、评估标准不统一的问题。从任务覆盖来看,该数据集共包含五大类典型任务:细粒度感知、图表理解、迷宫求解、拼图和空间理解,全面覆盖了当前多模态大模型普遍表现薄弱的视觉推理场景。

从潜在应用方向来看,基于该数据集训练优化后的多模态模型,可广泛适配多个领域的需求:针对细粒度感知任务优化的模型,可支撑电商商品精细化修图、工业视觉瑕疵场景的标注与修复、医疗影像局部特征编辑等场景;针对图表理解任务优化的模型,可用于企业财报自动解析、科研文献图表数据提取、政务可视化内容自动生成等场景;针对迷宫求解、拼图、空间理解类任务优化的模型,可支撑自动驾驶场景的路径规划推理、AR/VR空间交互内容生成、建筑设计草稿智能优化等创新应用。目前该数据集以Parquet格式(GRPO-10K.parquet)开放下载,可直接用于各类视觉问答、多模态大模型的训练与效果评估。

作为面向多模态强化学习训练的定向数据集,ETCHR-GRPO-10K的发布也填补了当前开源数据市场中,针对视觉推理编辑场景、带量化评估标准的GRPO训练数据集的供给缺口,不仅将助力InternLM自身的多模态模型能力迭代,也为全球AI研发团队提供了统一的视觉推理能力评估基准,对推动多模态大模型的能力精细化、场景落地多元化具有重要的行业价值。

查看ETCHR-GRPO-10K

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们