five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】WebInstruct - 网络预训练语料库中提取的大规模指令数据集

五号雷达开源数据市场2024-05-09 11:2588
该数据集的独特之处在于,它完全从网络挖掘而来,无需人工众包或GPT-4蒸馏,为构建更优质的指令微调数据集提供了新的范式。

WebInstruct数据集由卡内基梅隆大学和滑铁卢大学联合构建,旨在通过从网络预训练语料库中提取指令数据,以增强大语言模型的推理能力。该数据集包含1000万个高质量的指令-响应对,覆盖数学、科学、工程等多个领域。WebInstruct的创建过程包含3个步骤,首先,通过爬取多个测验网站创建多样化的种子数据集,利用fastText模型从Common Crawl召回相关文档;其次,使用开源大模型如Mixtral提取候选的Q-A对;最后,通过Mixtral-8×7B和Qwen-72B对提取的Q-A对进行精细化处理,以确保数据的质量。该数据集的独特之处在于,它完全从网络挖掘而来,无需人工众包或GPT-4蒸馏,为构建更优质的指令微调数据集提供了新的范式。

详情请参见五号雷达:https://www.5radar.com/result?key=WebInstruct

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们