five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

西北大学发布DS2-INSTRUCT数据集,应用在大语言模型、指令微调领域

五号数据雷达开源数据市场2026-03-17 03:1245
DS2-INSTRUCT是西北大学发布的数据集,于2026-03-13首发在arXiv应用于大语言模型、指令微调领域

西北大学本次发布的数据集DS2-INSTRUCT,DS2-INSTRUCT是由西北大学团队开发的领域特定指令合成框架,旨在解决大语言模型在专业领域适应性问题。该数据集通过零样本方法自动生成,覆盖数学、金融、生物医学等7个专业领域,采用任务导向关键词生成和布鲁姆分类法的认知层级设计确保数据多样性。其创新性在于无需人工标注或领域语料库,通过双向关键词扩展和检索增强技术构建知识体系,并利用自一致性验证保障数据质量。该数据集专为大语言模型在专业领域的指令微调设计,可显著提升模型在领域术语和推理模式上的表现。

查看DS2-INSTRUCT

README内容:

 

关于西北大学,美国西北大学是一所位于伊利诺伊州芝加哥市郊的私立研究型大学,以其卓越的学术研究和教育质量闻名。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们