中国科学院大学本次发布的数据集HP-Image-40K,HP-Image-40K是由字节跳动等机构构建的大规模人-产品图像数据集,包含4万余条高质量样本,旨在解决广告和电商领域高保真图像生成的训练数据匮乏问题。该数据集通过预训练文本-图像模型合成初始样本,并经过自动化过滤流程(包括语义对齐、边缘分割、CLIP相似度筛选及文本一致性校验)确保数据多样性和细节真实性。其核心应用为支持基于参考图像的修复框架HiFi-Inpaint,通过高频特征增强和像素级监督,实现产品纹理、品牌标识等细粒度元素的高精度保留。
关于中国科学院大学,中国科学院大学(University of Chinese Academy of Sciences,UCAS)是中国科学院直属的一所以研究生教育为主的大学,成立于1978年,总部位于北京。该校以培养高层次科技人才为目标,依托中国科学院的科研优势,提供理学、工学、医学、管理学等多个学科领域的研究生教育。
关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)