艾伦人工智能研究所 本次发布的数据集 COMPACTDS, COMPACTDS是一个由高质量、多样化来源构建的3800亿单词的数据存储库,旨在与预训练数据的广度相匹配,同时保持可访问性。该数据集包括来自网络爬虫、精选的数学内容、学术论文和教科书的多样化数据。COMPACTDS的设计基于两个关键见解:一是可以在不影响覆盖范围的情况下过滤掉低质量的网络文本,从而得到一个更小但具有代表性的数据集;二是结合内存中的近似最近邻(ANN)检索和磁盘上的精确搜索,可以在单个节点上实现毫秒级的检索。
Dataset card 内容:
Files and versions 内容:
关于 艾伦人工智能研究所 , 艾伦人工智能研究所(Allen Institute for Artificial Intelligence,简称AI2)是一个总部位于美国的研究机构,专注于推动人工智能科学的发展和应用。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)