首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】Matrix - 大规模开源双语（英文和中文）预训练数据集

五号雷达开源数据市场2024-05-13 15:0173

该数据集用于训练neo大模型，包含了46900亿个Token。

Matrix是M-A-P（Multimodal Art Projection）发布的一个大规模开源双语（英文和中文）预训练数据集。该数据集用于训练neo大模型，包含了46900亿个Token。Matrix数据集由多个元素构成，每个元素都来自不同的来源，并在语言建模和处理中发挥着不同的作用，以下是各个元素的简要介绍：

Common Crawl：汇聚互联网文本，涵盖网站、博客、新闻等，体现语言多样性。
代码：集成编程相关数据，丰富模型对技术语言的理解。
论文：融合多学科学术论文，提供专业和技术性语言素材。
书籍：涵盖文学、非虚构、教材等，拓宽语言模型的知识面。
指令：以问答形式呈现，增强模型对指令性语言的识别。
考试：整合学术考试材料，提升模型对教育性文本的处理能力。
新闻：集合新闻报道，使模型紧跟时事动态。
维基：不仅限于维基百科，包括百科全书类文章，覆盖广泛领域。
专利：纳入专利文献，为模型提供详尽的发明描述。

详情请参见五号雷达：https://www.5radar.com/result?key=Matrix

社区讨论

近期热门