five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Skywork 发布 SkyPile 数据集, 应用在 自然语言处理、语言模型 领域

五号数据雷达开源数据市场2025-10-07 14:4543
SkyPile 是 Skywork 发布的数据集,于 2025-10-07 首发在 arXiv 应用于 自然语言处理、语言模型 领域

Skywork 本次发布的数据集 SkyPile, 该数据集是一个庞大的高质量中文数据集,包含了233百万个网页,总共有1500亿个词汇标记。这些数据是从公开的网络资源中精心筛选并去重得到的,其规模达到了1500亿个词汇标记,专门用于语言模型的预训练任务。

查看SkyPile

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 Skywork , Skywork是一家专注于为航空航天、国防和安全市场提供先进无人机技术和解决方案的公司,致力于开发和生产高性能、可靠的无人机系统以满足客户需求。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们