five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

发布ndl-core-rag-index数据集,应用在信息检索、自然语言处理领域

五号数据雷达开源数据市场2026-01-13 19:1923
ndl-core-rag-index是发布的数据集,于2026-01-12首发在HuggingFace应用于信息检索、自然语言处理领域

本次发布的数据集ndl-core-rag-index,该数据集包含一个FAISS索引和相关的块元数据,用于支持在[ndl-core-corpus](https://huggingface.co/datasets/theodi/ndl-core-corpus)上的检索增强生成(RAG)应用。数据集使用sentence-transformers/all-MiniLM-L6-v2模型,维度为384,采用L2归一化和余弦相似性度量。分块策略为基于字符的递归分块,块大小为800字符,重叠100字符。FAISS索引和块元数据文件严格对齐,确保相似性搜索结果可以可靠地映射回原始源记录。此外,数据集还包含一个LanceDB搜索索引,支持按主题搜索和下载NDL Core数据集。

查看ndl-core-rag-index

Dataset card内容:

 

Files and versions内容:

 

关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。

关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们