哥伦比亚大学本次发布的数据集基于文本细粒度人类反馈的语言模型微调数据集,该数据集由哥伦比亚大学、微软和约翰霍普金斯大学联合构建,专注于长文本生成的细粒度人类反馈。包含来自Yelp评论、新闻文章、维基百科和arXiv论文四大领域的115k词汇标注,每条响应平均标注4.7个负面文本片段及3.8个属性标签。通过Llama-3.1模型生成改进序列,形成1303个渐进式编辑步骤的偏好对。其创新性在于将传统A/B比较转化为基于文本片段修订的监督信号,显著提升语言模型对齐效率,适用于检索增强生成等需要精准反馈修正的场景。
关于哥伦比亚大学,哥伦比亚大学(Columbia University)是一所位于美国纽约市的私立研究型大学,成立于1754年,是常春藤联盟成员之一。该校在多个学术领域享有盛誉,尤其在新闻、商学、法学和医学方面表现突出。
关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)