five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】COIG-CQIA - 高质量中文指令微调数据集

五号雷达开源数据市场2024-04-06 10:4472
该数据集使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中十分注重数据的来源、质量与多样性。该数据集旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。

COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need,是一个开源的高质量指令微调数据集,由零一万物、中科院深圳先进技术研究院和M-A-P等机构构建。该数据集包含48,375个实例,源自22个不同的数据源,覆盖了从通用知识到STEM领域,再到人文学科的广泛领域。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。该数据集受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中十分注重数据的来源、质量与多样性。该数据集旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。

详情请参见五号雷达:https://www.5radar.com/result?key=COIG-CQIA

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们