Cognitive Computations 本次发布的数据集 mlabonne_orca-agentinstruct-1M-v1-cleaned-DolphinLabeled, 该数据集是orca-agentinstruct-1M-v1-cleaned数据集的过滤版本,由Eric Hartford和Cognitive Computations提供。原始数据集是由Microsoft发布的orca-agentinstruct-1M-v1的清理版本,是一个完全合成的数据集,仅使用网络上公开的原始文本作为种子数据。该数据集是创建Orca-3-Mistral的完整AgentInstruct数据集(约25M样本)的子集。作者声称,与Mistral 7B Instruct相比,该数据集在AGIEval上提高了40%,在MMLU上提高了19%,在GSM8K上提高了54%,在BBH上提高了38%,在AlpacaEval上提高了45%。对该数据集的修改包括删除具有相同最终响应的行,并添加一个包含多个布尔值的flags列,用于标记输出是否为拒绝、是否包含未经请求的建议、是否包含NSFW内容、是否包含PII以及是否给出免责声明。此外,还对原始数据集进行了统一分割、将字符串转换为字典列表以及删除空的系统提示等更改。
查看mlabonne_orca-agentinstruct-1M-v1-cleaned-DolphinLabeled
Dataset card 内容:
Files and versions 内容:
关于 Cognitive Computations , Cognitive Computations是一个专注于认知计算领域的研究机构。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)