基于多级残差映射器的文本驱动人脸图像生成和编辑
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(61872112,61976069)


Text-Driven Face Image Generation and Manipulation via Multi-Level Residual Mapper
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    尽管生成对抗网络在人脸图像生成和编辑领域取得了巨大的成功,但在其潜在编码空间中寻找可以操作人脸语义属性的方向仍然是计算机视觉的一大挑战,这一挑战的实现需要大量标记数据不断进行网络调优,而搜集、标注类似数据存在诸多难点,比如较高的技术门槛以及大量的人工成本。最近的一些工作都在试图借助预训练模型来克服标记数据短缺的问题。虽然这种做法已经被验证能够完成上述任务,但在操作的准确性和结果的真实性上都无法满足真实人脸编辑场景的需求。本文中,我们借助对比语言-图像预训练模型(CLIP)的图像文本联合表示能力将图像和文本内容编码在一个共享的潜在编码空间中,借助于精心设计的网络结构和损失函数,我们的框架可以精准识别相关面部属性并学习一个多级残差映射网络,该网络可根据图像和文本内容编码预测潜在编码残差,再借助图像生成预训练模型StyleGAN2完成高质量的人脸图像生成和编辑任务。大量实验也证明了我们的方法在操作准确性、视觉真实性和无关属性保留方面的优异表现。

    Abstract:

    Although generative adversarial networks (GANs) have achieved great success in the face image generation and manipulation, discovering meaningful directions in the latent space of GANs to manipulate semantic attributes is a difficult but meaningful challenge in computer vision. The realization of this challenge typically requires large amounts of labeled data and several hours of network fine-tuning. However, obtaining an annotated collection of images for each desired manipulation is usually very expensive and time consuming. Recent works aim to overcome this limitation by leveraging the pre-trained models. While promising, the accuracy of the manipulation and the authenticity of the results cannot meet the needs of real face editing scenarios. To address these problems, we encode the image and text description into a shared embedding space and propose a unified image generation and manipulation framework by leveraging the powerful joint representation capability from Contrastive Language-Image Pre-training (CLIP). With the carefully designed network structures and loss functions, our framework can learn a latent residual mapper network to map the input conditions into corresponding latent code residuals. This scheme enables our method to perform high-quality image generation and manipulation by leveraging the generative power from the pre-trained StyleGAN2 model. Extensive experiments demonstrate the superiority of our approach in terms of manipulation accuracy, visual realism, and irrelevant attribute preservation.

    参考文献
    相似文献
    引证文献
引用本文

李宗霖,张盛平,刘杨,张兆心,张维刚,黄庆明.基于多级残差映射器的文本驱动人脸图像生成和编辑.软件学报,2023,34(5):0

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-04-14
  • 最后修改日期:2022-08-03
  • 录用日期:
  • 在线发布日期: 2022-09-20
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号