MongoDB 本次发布的数据集 mongodb-docs-embedded, 该数据集包含MongoDB技术文档的一小部分内容的嵌入版本。数据集结构包括源名称、文章链接、对文章采取的操作、Markdown格式的文章内容、内容格式、与文档相关的元数据(如标签、内容类型等)、文档标题、最后更新日期以及使用Hugging Face的thenlpr/gte-small开源模型生成的内容块的嵌入。此数据集可用于原型设计RAG应用,是我们在官方文档网站上构建AI聊天机器人时使用的真实数据样本。
Dataset card 内容:
Files and versions 内容:
关于 MongoDB , MongoDB是一家全球领先的软件公司,专注于开源文档数据库。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)