本次发布的数据集 bge-full-data, BGE训练数据集是一个用于文本检索任务的数据集,包含15个检索分割。数据集的特征包括查询ID、查询文本、正面段落和负面段落,每个段落包含文档ID、文本和标题。数据集的分割仅包含训练集,大小为101627503655字节,包含1602667个示例。数据集的下载大小为57281142491字节。数据集的预处理更新包括将整个文档推入文本字段以及通过计算文本的MD5哈希生成唯一的查询和文档ID。
Dataset card 内容:
Files and versions 内容:
关于 , 国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)