five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

艾伦人工智能研究所 发布 COMPACTDS 数据集, 应用在 自然语言处理、数据检索 领域

五号数据雷达开源数据市场2025-08-15 21:3331
COMPACTDS 是 艾伦人工智能研究所 发布的数据集,于 2025-07-02 首发在 arXiv 应用于 自然语言处理、数据检索 领域

艾伦人工智能研究所 本次发布的数据集 COMPACTDS, COMPACTDS是一个由高质量、多样化来源构建的3800亿单词的数据存储库,旨在与预训练数据的广度相匹配,同时保持可访问性。该数据集包括来自网络爬虫、精选的数学内容、学术论文和教科书的多样化数据。COMPACTDS的设计基于两个关键见解:一是可以在不影响覆盖范围的情况下过滤掉低质量的网络文本,从而得到一个更小但具有代表性的数据集;二是结合内存中的近似最近邻(ANN)检索和磁盘上的精确搜索,可以在单个节点上实现毫秒级的检索。

查看COMPACTDS

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 艾伦人工智能研究所 , 艾伦人工智能研究所(Allen Institute for Artificial Intelligence,简称AI2)是一个总部位于美国的研究机构,专注于推动人工智能科学的发展和应用。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们