主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公English
2022年专刊出版计划 微信服务介绍 最新一期:2021年第2期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
包希港,周春来,肖克晶,覃飙.视觉问答任务的研究综述.软件学报,0,(0):0
视觉问答任务的研究综述
A survey of datasets and algorithms for Visual Question Answering
投稿时间:2020-07-09  修订日期:2020-10-02
DOI:10.13328/j.cnki.jos.006215
中文关键词:  视觉问答  交叉方向  语言偏见  数据集分布  算法鲁棒性
英文关键词:visual question answering  interdisciplinary direction  language bias  distribution of datasets  robustness
基金项目:国家自然科学基金(61772534);国家重点自然科学基金(61732006)
作者单位E-mail
包希港 中国人民大学 信息学院 北京 100872  
周春来 中国人民大学 信息学院 北京 100872  
肖克晶 中国人民大学 信息学院 北京 100872  
覃飙 中国人民大学 信息学院 北京 100872 qinbiao@ruc.edu.cn 
摘要点击次数: 185
全文下载次数: 140
中文摘要:
      视觉问答是计算机视觉领域和自然语言处理领域的交叉方向,近几年受到广泛关注.在视觉问答任务中,算法需要回答基于特定图片(或视频)的问题.自2014年第一个视觉问答数据集发布以来,若干大规模数据集在近5年内被陆续发布,并有大量算法在此基础上被提出.已有综述性研究重点针对视觉问答任务的发展进行了总结,但近年来,有研究发现视觉问答模型强烈依赖语言偏见和数据集的分布,特别是自VQA-CP数据集发布以来,许多模型的效果大幅下降,目前尚未有综述研究对其总结.本文主要详细介绍近年来提出的算法以及发布的数据集,特别是讨论了算法在加强鲁棒性方面的研究.本文对视觉问答任务的算法进行了分类总结,介绍了其动机、细节以及局限性.最后讨论了视觉问答任务的挑战及展望.
英文摘要:
      Visual Question Answering (VQA) is an interdisciplinary direction in the field of computer vision and natural language processing. It has received extensive attention in recent years. In the Visual Question Answering, the algorithm is required to answer questions based on specific pictures(or videos). Since the first visual question answering dataset was released in 2014, several large-scale datasets have been released in the past five yeHars, and a large number of algorithms have been proposed based on them. Existing research has focused on the development of visual question answering, but in recent years, visual question answering has been found to rely heavily on language bias and the distribution of datasets, especially since the release of the VQA-CP dataset, the accuracy of many models has been greatly reduced, there is no review research to summarize it. We mainly introduce the proposed algorithms and the released datasets in recent years, especially discuss the research of algorithms on strengthening the robustness. We summarize the algorithms of visual question answering and introduce their motivation, details, and limitations. Finally, the challenge and prospect of visual question answering are discussed.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利