Skywork 本次发布的数据集 SkyPile, 该数据集是一个庞大的高质量中文数据集,包含了233百万个网页,总共有1500亿个词汇标记。这些数据是从公开的网络资源中精心筛选并去重得到的,其规模达到了1500亿个词汇标记,专门用于语言模型的预训练任务。
Dataset card 内容:
Files and versions 内容:
关于 Skywork , Skywork是一家专注于为航空航天、国防和安全市场提供先进无人机技术和解决方案的公司,致力于开发和生产高性能、可靠的无人机系统以满足客户需求。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)