five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

复旦大学 发布 audio-driven portrait DPO dataset 数据集, 应用在 动态肖像动画、音频处理 领域

五号数据雷达开源数据市场2025-05-31 07:0846
audio-driven portrait DPO dataset 是 复旦大学 发布的数据集,于 2025-05-29 首发在 arXiv 应用于 动态肖像动画、音频处理 领域

复旦大学 本次发布的数据集 audio-driven portrait DPO dataset, 本研究提出了一个名为Hallo4的高保真动态肖像动画生成框架,旨在解决基于音频和骨骼运动的肖像动画中嘴唇同步、面部表情自然性和身体运动动态的真实性问题。该框架通过两个关键创新来应对这些挑战:首先,引入了针对以人为中心的动画的直接偏好优化,利用一个精心策划的人类偏好数据集来调整生成输出,以与肖像运动视频对齐和表情自然性的感知指标相一致。其次,所提出的时序运动调制通过时序通道重新分配和特征扩展来重塑运动条件,将其转换为维度对齐的潜在特征,从而解决了时空分辨率不匹配的问题,同时保留了基于扩散的合成中高频运动细节的真实性。实验结果表明,与基线方法相比,该方法在嘴唇音频同步、表情生动性和身体运动连贯性方面取得了明显的改进,并在人类偏好指标方面取得了显著提升。本研究构建了一个音频驱动的肖像DPO数据集,用于捕捉人类在两个关键维度上的偏好:肖像-视频同步的准确性和面部表情和姿势的自然性。该数据集通过“最好与最差”排名策略和直接偏好优化,优化了生成策略,以最大化轨迹级奖励差距,同时规范了对基本扩散模型去噪动力学的偏差,从而显著提高了嘴唇同步准确性和面部表情表现力。

查看audio-driven portrait DPO dataset

README 内容: 

 

关于 复旦大学 , 复旦大学是中国著名的高等学府,位于上海,是中国教育部直属的全国重点大学,也是‘211工程’和‘985工程’重点建设的大学之一。该校拥有一流的教学质量和研究实力,在国内外享有较高声誉。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们