西北大学本次发布的数据集DS2-INSTRUCT,DS2-INSTRUCT是由西北大学团队开发的领域特定指令合成框架,旨在解决大语言模型在专业领域适应性问题。该数据集通过零样本方法自动生成,覆盖数学、金融、生物医学等7个专业领域,采用任务导向关键词生成和布鲁姆分类法的认知层级设计确保数据多样性。其创新性在于无需人工标注或领域语料库,通过双向关键词扩展和检索增强技术构建知识体系,并利用自一致性验证保障数据质量。该数据集专为大语言模型在专业领域的指令微调设计,可显著提升模型在领域术语和推理模式上的表现。
README内容:
关于西北大学,美国西北大学是一所位于伊利诺伊州芝加哥市郊的私立研究型大学,以其卓越的学术研究和教育质量闻名。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)