five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】Matrix - 大规模开源双语(英文和中文)预训练数据集

五号雷达开源数据市场2024-05-13 15:0173
该数据集用于训练neo大模型,包含了46900亿个Token。

Matrix是M-A-P(Multimodal Art Projection)发布的一个大规模开源双语(英文和中文)预训练数据集。该数据集用于训练neo大模型,包含了46900亿个Token。Matrix数据集由多个元素构成,每个元素都来自不同的来源,并在语言建模和处理中发挥着不同的作用,以下是各个元素的简要介绍:

  1. Common Crawl:汇聚互联网文本,涵盖网站、博客、新闻等,体现语言多样性。
  2. 代码:集成编程相关数据,丰富模型对技术语言的理解。
  3. 论文:融合多学科学术论文,提供专业和技术性语言素材。
  4. 书籍:涵盖文学、非虚构、教材等,拓宽语言模型的知识面。
  5. 指令:以问答形式呈现,增强模型对指令性语言的识别。
  6. 考试:整合学术考试材料,提升模型对教育性文本的处理能力。
  7. 新闻:集合新闻报道,使模型紧跟时事动态。
  8. 维基:不仅限于维基百科,包括百科全书类文章,覆盖广泛领域。
  9. 专利:纳入专利文献,为模型提供详尽的发明描述。
详情请参见五号雷达:https://www.5radar.com/result?key=Matrix
数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们