小米公司本次发布的数据集VGGSound-TVC,VGGSound-TVC是由小米公司MiLM Plus团队与武汉大学联合构建的首个专注于视频-文本语义冲突场景下音频生成可控性评估的基准数据集。该数据集基于VGGSound扩展,通过系统化设计不同等级的视觉-文本语义冲突样本,量化评估文本控制视频到音频生成模型的鲁棒性。数据集包含多模态对齐的视频-文本-音频三元组,重点解决现有方法在跨模态语义冲突时文本控制失效的问题,为可控音视频生成领域提供了标准化测试平台。
关于小米公司,小米公司是一家中国科技公司,成立于2010年,主要生产智能手机、智能家居设备和其他消费电子产品,以高性价比和创新设计著称。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)