香港城市大学 本次发布的数据集 RedRFT, RedRFT是一个轻量级基准,旨在简化和标准化基于强化微调的红队攻击方法的实现和评估。它结合了单文件CleanRL和高度模块化的Tianshou的设计优势,提供高质量的单一文件红队攻击实现和模块化PPO核心组件。它支持多种令牌和句子多样性指标,并具有模块化内部奖励计算功能,便于进行即插即用实验。为了阐明它们对RFT性能的影响,我们对包括低秩自适应(LoRA)、KL散度、拉格朗日乘数等关键组件进行了广泛的消融研究。我们希望这项工作有助于1)全面了解基于RFT的红队攻击算法的实现细节,2)使基于RFT的红队攻击的创新功能快速原型化。
关于 香港城市大学 , 香港城市大学是位于中国香港的一所公立研究型大学,以创新和研究著称,提供多种学科的课程。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)