视觉语言预训练综述
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家重点研发计划项目(2020YFB1406604),国家自然科学基金(61931008,62071415,U21B2024)


A survey on visual language pre-training
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.本文系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了五类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能.

    Abstract:

    In recent years, deep learning has achieved excellent performance in unimodal areas such as computer vision (CV) and natural language processing (NLP). With the development of technology, the importance and necessity of multimodal learning has been shown. As an important part of multimodal learning, visual language learning has received a lot of attention from researchers in China and abroad. Thanks to the development of Transformer framework, more and more pre-trained models have been applied to visual language multimodal learning, and the performance of related tasks has been improved qualitatively. In this paper, we systematically review the current work on visual language pretraining models, firstly, we introduce the knowledge about pretraining models, secondly, we analyze and compare the structure of pretraining models from two different perspectives, discuss the commonly used visual language pretraining techniques, detail the five types of downstream pretraining tasks, and finally, we introduce the datasets of commonly used image and video pretraining tasks, and compare and analyze the commonly used pretraining models on different datasets under different tasks.

    参考文献
    相似文献
    引证文献
引用本文

殷炯,张哲东,高宇涵,杨智文,李亮,肖芒,孙垚棋,颜成钢.视觉语言预训练综述.软件学报,2023,(5):0

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-04-18
  • 最后修改日期:2022-08-03
  • 录用日期:
  • 在线发布日期: 2022-09-20
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号