Nutanix 本次发布的数据集 mbpp_processed_triplet_data, 该数据集是从MBPP数据集构建的,使用LLM生成的描述来自Llama-3-70B-awq模型,用于微调密集检索模型。数据集的创建使用了MBPP数据集的前70%数据点,并生成了对应于所有负样本的正样本对的三元组。每个锚点-正样本对有n-1个负样本,因此总共有n * (n - 1)个三元组。使用随机种子10,将这些三元组按70:30的比例分为训练集和测试集。数据集包含三个字段:anchor(对应代码片段的问题),positive(对应问题的正确答案),negative(数据集中不对应问题的其他代码片段)。
Dataset card 内容:
Files and versions 内容:
关于 Nutanix , Nutanix是一家专注于提供软件定义的数据中心和云计算解决方案的公司,以超融合基础设施技术助力企业简化IT运营。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)