five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Cognitive Computations 发布 mlabonne_orca-agentinstruct-1M-v1-cleaned-DolphinLabeled 数据集, 应用在 自然语言处理、模型评估 领域

五号数据雷达开源数据市场2025-01-06 09:4017
mlabonne_orca-agentinstruct-1M-v1-cleaned-DolphinLabeled 是 Cognitive Computations 发布的数据集,于 2025-01-05 首发在 HuggingFace 应用于 自然语言处理、模型评估 领域

Cognitive Computations 本次发布的数据集 mlabonne_orca-agentinstruct-1M-v1-cleaned-DolphinLabeled, 该数据集是orca-agentinstruct-1M-v1-cleaned数据集的过滤版本,由Eric Hartford和Cognitive Computations提供。原始数据集是由Microsoft发布的orca-agentinstruct-1M-v1的清理版本,是一个完全合成的数据集,仅使用网络上公开的原始文本作为种子数据。该数据集是创建Orca-3-Mistral的完整AgentInstruct数据集(约25M样本)的子集。作者声称,与Mistral 7B Instruct相比,该数据集在AGIEval上提高了40%,在MMLU上提高了19%,在GSM8K上提高了54%,在BBH上提高了38%,在AlpacaEval上提高了45%。对该数据集的修改包括删除具有相同最终响应的行,并添加一个包含多个布尔值的flags列,用于标记输出是否为拒绝、是否包含未经请求的建议、是否包含NSFW内容、是否包含PII以及是否给出免责声明。此外,还对原始数据集进行了统一分割、将字符串转换为字典列表以及删除空的系统提示等更改。

查看mlabonne_orca-agentinstruct-1M-v1-cleaned-DolphinLabeled

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 Cognitive Computations , Cognitive Computations是一个专注于认知计算领域的研究机构。

关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们