five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

上海人工智能实验室 发布 Wan Juan 数据集, 应用在 多模态数据、人工智能 领域

五号数据雷达开源数据市场2024-10-13 09:3864
Wan Juan 是 上海人工智能实验室 发布的数据集,于 2023-09-15 首发在 arXiv 应用于 多模态数据、人工智能 领域

上海人工智能实验室 本次发布的数据集 Wan Juan, 万卷(Wan Juan)是一个大规模的多模态中英文数据集,由上海人工智能实验室创建。该数据集包含文本、图文和视频三种模态,总容量超过2TB,其中文本数据超过6亿文档,存储量超过1TB;图文数据处理成文档,总数超过2200万,数据大小超过200GB;视频文件超过1000个,数据大小超过900GB。数据来源于广泛的网络资源,经过算法处理和人工验证确保数据安全、高质量和价值对齐。万卷数据集支持大型模型训练,特别是在多模态任务中,如视频字幕和视频问答,显示出显著优势。

查看Wan Juan

关于 上海人工智能实验室 , 上海人工智能实验室是一家专注于人工智能技术研究和应用的科研机构,致力于推动人工智能领域的前沿技术发展。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们