本次发布的数据集ndl-core-rag-index,该数据集包含一个FAISS索引和相关的块元数据,用于支持在ndl-core-corpus上的检索增强生成(RAG)用例。数据集使用了sentence-transformers/all-MiniLM-L6-v2模型,维度为384,采用L2归一化和余弦相似性度量。分块策略为基于字符的递归分块,块大小为800个字符,重叠100个字符。FAISS索引和块元数据文件严格对齐,确保相似性搜索结果可以可靠地映射回原始源记录。此外,数据集还添加了LanceDB搜索索引,支持按主题搜索和下载NDL Core数据集。
Dataset card内容:
Files and versions内容:
关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)