当前多模态大模型的落地应用正加速向文化娱乐等垂直领域渗透,而漫画作为具有全球影响力的内容品类,其智能化升级长期面临标注数据质量不足的瓶颈:由于漫画存在对话框形态不规则、文字方向多变、手绘拟声词格式不统一、画师手写风格差异大等特性,传统标注普遍存在转录错误、区域漏标、标注重叠等问题,难以适配大模型时代的AI训练需求。近日,东京大学联合Mantra公司正式发布升级版漫画多模态理解基准数据集Manga109-v2026,该数据集于2026年5月20日首发于预印本平台arXiv,是目前公开领域标注精度领先的漫画专项基准数据集。
本次发布的Manga109-v2026共覆盖109部完整的日本漫画作品,包含147887条标准化文本标注。为了修正历史同类数据集的标注误差,研发团队采用“商业OCR系统差异检测+多轮人工交叉验证”的制作流程,系统性修正了约29000条对话标注中存在的转录错误、缺失区域、重叠标注等五类典型问题,大幅提升了标注的空间定位精度和语义一致性,从底层解决了传统漫画标注与现代AI训练任务之间的对齐难题。
从应用价值来看,该数据集可广泛支撑多个赛道的研发需求:在漫画光学字符识别领域,高精度的文本坐标和内容标注可助力OCR系统适配不规则对话框、竖排文字、手绘拟声词等复杂漫画场景,为漫画无障碍阅读、存量漫画数字化入库提供技术支撑;在多模态理解领域,结合漫画的图像信息与标注文本,可研发漫画剧情自动摘要、智能内容检索、适龄内容识别等应用,提升漫画平台的运营效率与用户体验;在机器翻译领域,高质量的原文标注可提升AI翻译模型对漫画语境、特有表达的识别准确率,降低小众漫画的翻译门槛,助力漫画内容的跨文化传播;此外,该数据集也可为文化研究领域提供标准化的分析样本,支撑不同年代漫画的内容趋势、叙事逻辑等跨文化研究。
当前全球数据要素市场正朝着垂直细分方向深化发展,文化内容类标注数据集作为AI文化应用的核心基础设施,其供给质量直接决定了文化数字化的落地效率。本次Manga109-v2026的发布,不仅填补了高精度漫画多模态基准数据集的供给空白,也为垂直领域基准数据集的构建提供了可复用的“技术辅助+人工校验”的标准化流程,为全球文化数字化转型和AI在文化领域的落地提供了重要的基础支撑。
首页 / 开源数据市场 / 正文
东京大学联合Mantra发布Manga109-v2026基准数据集 破解漫画AI应用标注痛点
五号数据雷达开源数据市场2026-05-22 05:2726
2026年5月20日,东京大学联合Mantra公司在预印本平台arXiv首发漫画多模态理解基准数据集Manga109-v2026,该数据集通过标准化高精度标注解决了传统漫画数据与AI训练任务的对齐难题,可支撑漫画光学字符识别、多模态理解、跨文化内容分析等多领域研发。

社区讨论
近期热门




_1769672084863.jpg)