新加坡科技设计与设计大学 本次发布的数据集 SuperWriter-LM, SuperWriter-LM数据集是一个用于训练大型语言模型进行长文本生成的数据集,由新加坡科技设计与设计大学和清华大学的研究团队创建。该数据集包含12000条高质量的训练数据,分为三个阶段:规划、写作和修改。数据集的设计旨在模拟人类写作过程,通过引入中间思维步骤来提高生成文本的流畅性、一致性和逻辑性。数据集的应用领域包括长文本生成、写作辅助等,旨在解决现有大型语言模型在生成长文本时存在的连贯性和逻辑性不足的问题。
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)