主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2019年第8期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
马苗,王伯龙,吴琦,武杰,郭敏.视觉场景描述及其效果评价.软件学报,2019,30(4):867-883
视觉场景描述及其效果评价
Visual Scene Description and Its Performance Evaluation
投稿时间:2018-04-15  修订日期:2018-06-13
DOI:10.13328/j.cnki.jos.005665
中文关键词:  深度学习  图像描述  视频描述  基准数据集  性能评价
英文关键词:deep learning  image captioning  video captioning  benchmark dataset  performance evaluation
基金项目:国家自然科学基金(61877038,61801282,61601274);陕西省自然科学基金(2018JM6068);中央高校基本科研业务经费(GK201703054,GK201703058)
作者单位E-mail
马苗 现代教学技术教育部重点实验室(陕西师范大学), 陕西 西安 710062
陕西师范大学 计算机科学学院, 陕西 西安 710119 
mmthp@snnu.edu.cn 
王伯龙 陕西师范大学 计算机科学学院, 陕西 西安 710119  
吴琦 School of Computer Science, The University of Adelaide, Adelaide SA5005, Australia  
武杰 陕西师范大学 计算机科学学院, 陕西 西安 710119  
郭敏 陕西师范大学 计算机科学学院, 陕西 西安 710119  
摘要点击次数: 489
全文下载次数: 529
中文摘要:
      作为计算机视觉、多媒体、人工智能和自然语言处理等领域的交叉性研究课题,视觉场景描述的研究内容是自动生成一个或多个语句用于描述图像或视频中呈现的视觉场景信息.视觉场景中内容的丰富性和自然语言表达的多样性使得视觉场景描述成为一项充满挑战的任务,综述了现有视觉场景描述方法及其效果评价.首先,论述了视觉场景描述的定义、研究任务及方法分类,简要分析了视觉场景描述与多模态检索、跨模态学习、场景分类、视觉关系检测等相关技术的关系;然后分类讨论视觉场景描述的主要方法、模型及研究进展,归纳日渐增多的基准数据集;接下来,梳理客观评价视觉场景描述效果的主要指标和视觉场景描述技术面临的问题与挑战,最后讨论未来的应用前景.
英文摘要:
      As a cross-domain research topic related to Computer Vision, Multimedia, Artificial Intelligence and Natural Language Processing, the task of visual scene description is to produce automatically one or more sentences to describe the content of visual scene from an image or a video snippet. The richness of the content in the visual scene and the diversity of the expression of natural language make visual scene description a challenging task. This paper gives a review about the generation methods and performance evaluation on the recently developed visual scene description methods. Specifically, the research object and main tasks of visual scene description are firstly defined; the relationships between visual scene description and multi-modal retrieval, cross-modal learning, scene classification, visual relationship detection and other related technologies are discussed sequentially. And then, main methods and research progress of visual scene description are summarized in three categories, while the increasing benchmark datasets are discussed. Besides, some widely-used evaluation metrics and the corresponding challenges on the visual scene description are discussed. Finally, some potential applications in future are suggested.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利