首页 / 开源数据市场 / 正文

浙江大学发布国内首个亿像素级文生图数据集PixVerve-95K 填补超高清AI生成训练数据空白

五号数据雷达开源数据市场2026-05-21 05:3720

2026年5月20日，浙江大学联合相关机构在arXiv首发国内首个大规模亿像素级超高清文本到图像数据集PixVerve-95K，可有效解决高分辨率图像生成中结构伪影、细节丢失等行业共性痛点，为超高清AIGC技术落地及数字内容产业发展提供核心数据支撑。

当前，AIGC技术已成为数字内容生产领域的核心驱动力，文生图、多模态内容合成等应用快速落地，但行业始终面临一项共性瓶颈：主流文生图模型的输出分辨率多集中在2K-4K区间，在生成8K及以上超高清内容时，普遍存在纹理失真、结构错位、细节模糊等问题，核心制约因素之一就是缺乏大规模、标注体系完善的亿像素级训练数据集。在此背景下，浙江大学联合相关机构于2026年5月20日在arXiv平台首发PixVerve-95K数据集，引发行业广泛关注。

作为国内首个大规模、高质量超高清文本到图像数据集，PixVerve-95K的核心目标是将原生AI图像生成分辨率推升至100兆像素级别。该数据集共包含约9.5万张图像，单张图像像素数均不低于1亿，覆盖自然景观、城市建筑、生活场景、工业产品等多元化内容，同时配备了七维度结构化标注体系，涵盖标签列表、边界框坐标、美学分析、实例级描述和长短文本描述等多类标注信息，可为AI模型提供颗粒度极细的训练信号。为保障数据集质量，研发团队通过精心设计的五阶段自动化流程完成数据集构建，整合了来自Pexels、Unsplash等全球知名开源图像平台的高质量真实图像，以及通过先进生成模型合成的优质数据，所有入库内容均经过曝光度、清晰度、平坦度、内容丰富度和美学检测等多轮严格筛选，确保数据集的整体质量达到行业领先水平。

从应用价值来看，PixVerve-95K的发布将直接推动超高清文本到图像生成领域的技术研发，解决长期以来因缺乏合适训练数据导致的高分辨率图像生成结构伪影、细节丢失等核心挑战。除基础研究外，该数据集未来可支撑多类高价值场景的技术落地：在数字电影领域，可用于生成超高清特效镜头、场景概念图，大幅降低影视制作的前期创意成本；在沉浸式娱乐领域，可为VR/AR、元宇宙虚拟场景提供亿像素级的原生内容生成训练支撑，提升虚拟场景的视觉保真度与沉浸感；在数字孪生领域，可助力城市、工业、文旅等场景的超高清孪生模型渲染，提升数字映射的精细度与真实性；在文博文创领域，可用于文物的超高清数字化还原、高质感文创内容生成等，为文化数字化战略落地提供数据支撑。

作为AI训练数据领域的重要供给成果，高质量垂直数据集是当前数据要素市场的核心稀缺资源，也是支撑AI技术迭代的核心生产要素。本次PixVerve-95K的发布，不仅填补了国内亿像素级文生图训练数据的空白，也为我国超高清视频产业、数字内容产业的技术创新提供了底层数据支撑，对推动AIGC技术从“可用”向“高清好用”升级、加快数字经济核心产业发展具有重要的行业价值。

查看PixVerve-95K

详情页内容：

社区讨论

近期热门