five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

京都大学发布Jagle数据集,应用在多模态学习、日语处理领域

五号数据雷达开源数据市场2026-04-04 05:3635
Jagle是京都大学发布的数据集,于2026-04-02首发在arXiv应用于多模态学习、日语处理领域

京都大学本次发布的数据集Jagle,Jagle是目前规模最大的日语多模态后训练数据集,由日本国立情报学研究所等机构联合构建,包含约920万条实例,涵盖通用视觉问答、图表理解、图像描述与知识、OCR问答及基础OCR五大任务类别。该数据集创新性地整合了维基百科图像、政府PDF文档等异构数据源,并通过VLM生成、跨语言翻译等四类策略构建问答对。其数据量达到35亿答案token,在保持日语任务性能的同时不会影响英语模型表现,为低资源语言的多模态模型训练提供了重要基准。

查看Jagle

关于京都大学,京都大学是日本一所著名的国立综合研究型大学,位于京都府京都市。作为日本第二所设立的旧制帝国大学,京都大学在全球享有很高的学术声誉,尤其在自然科学和工程技术领域表现突出。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们