苏黎世联邦理工学院本次发布的数据集ACTIVEULTRAFEEDBACK,ACTIVEULTRAFEEDBACK是由苏黎世联邦理工学院团队开发的偏好数据集生成框架,旨在解决大语言模型对齐任务中标注成本高昂的问题。该数据集通过集成30个开源大模型生成多样化候选响应,采用基于不确定性的主动学习策略(如DRTS和DELTAUCB)动态筛选最具信息量的样本对,仅需传统方法1/6的标注量即可达到同等效果。数据生成过程包含响应生成、奖励预测、动态配对选择等模块化流程,特别适用于低资源领域和专家场景的模型微调与奖励建模,显著提升了DPO等优化算法的样本效率。
关于苏黎世联邦理工学院,苏黎世联邦理工学院(ETH Zurich)是瑞士两所联邦理工学院之一,位于德语区苏黎世,是世界顶尖的科学技术研究型大学,以工程技术、自然科学和建筑学等领域的卓越研究闻名。





_1769672084863.jpg)