five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

小米公司发布VGGSound-TVC数据集,应用在多模态学习、音频生成领域

五号数据雷达开源数据市场2026-04-19 05:1716
VGGSound-TVC是小米公司发布的数据集,于2026-04-16首发在arXiv应用于多模态学习、音频生成领域

小米公司本次发布的数据集VGGSound-TVC,VGGSound-TVC是由小米公司MiLM Plus团队与武汉大学联合构建的首个专注于视频-文本语义冲突场景下音频生成可控性评估的基准数据集。该数据集基于VGGSound扩展,通过系统化设计不同等级的视觉-文本语义冲突样本,量化评估文本控制视频到音频生成模型的鲁棒性。数据集包含多模态对齐的视频-文本-音频三元组,重点解决现有方法在跨模态语义冲突时文本控制失效的问题,为可控音视频生成领域提供了标准化测试平台。

查看VGGSound-TVC

关于小米公司,小米公司是一家中国科技公司,成立于2010年,主要生产智能手机、智能家居设备和其他消费电子产品,以高性价比和创新设计著称。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们