复旦大学 本次发布的数据集 audio-driven portrait DPO dataset, 本研究提出了一个名为Hallo4的高保真动态肖像动画生成框架,旨在解决基于音频和骨骼运动的肖像动画中嘴唇同步、面部表情自然性和身体运动动态的真实性问题。该框架通过两个关键创新来应对这些挑战:首先,引入了针对以人为中心的动画的直接偏好优化,利用一个精心策划的人类偏好数据集来调整生成输出,以与肖像运动视频对齐和表情自然性的感知指标相一致。其次,所提出的时序运动调制通过时序通道重新分配和特征扩展来重塑运动条件,将其转换为维度对齐的潜在特征,从而解决了时空分辨率不匹配的问题,同时保留了基于扩散的合成中高频运动细节的真实性。实验结果表明,与基线方法相比,该方法在嘴唇音频同步、表情生动性和身体运动连贯性方面取得了明显的改进,并在人类偏好指标方面取得了显著提升。本研究构建了一个音频驱动的肖像DPO数据集,用于捕捉人类在两个关键维度上的偏好:肖像-视频同步的准确性和面部表情和姿势的自然性。该数据集通过“最好与最差”排名策略和直接偏好优化,优化了生成策略,以最大化轨迹级奖励差距,同时规范了对基本扩散模型去噪动力学的偏差,从而显著提高了嘴唇同步准确性和面部表情表现力。
查看audio-driven portrait DPO dataset
README 内容:
关于 复旦大学 , 复旦大学是中国著名的高等学府,位于上海,是中国教育部直属的全国重点大学,也是‘211工程’和‘985工程’重点建设的大学之一。该校拥有一流的教学质量和研究实力,在国内外享有较高声誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)