主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2020-2021年专刊出版计划 微信服务介绍 最新一期:2020年第9期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述.软件学报,0,():0
多模态视觉语言表征学习研究综述
Survey of Multimodal Visual Language Representation Learning
投稿时间:2020-05-11  修订日期:2020-06-26
DOI:10.13328/j.cnki.jos.006125
中文关键词:  多模态表征学习  表征学习  多模态机器学习  深度学习
英文关键词:Multimodal Representation Learning  Representation Learning  Multimodal Machine Learning  Deep Learning
基金项目:国家自然科学基金(61370069,61672111);国家自然科学基金-通用技术基础研究联合基金(U1836215);北京市自然科学基金(4162043);国家重点研发计划(2016QY03D0605)
作者单位E-mail
杜鹏飞 可信分布式计算与服务教育部重点实验室(北京邮电大学), 北京 100876
北京邮电大学网络空间安全学院, 北京 100876 
 
李小勇 可信分布式计算与服务教育部重点实验室(北京邮电大学), 北京 100876
北京邮电大学网络空间安全学院, 北京 100876 
lxyxjtu@163.com 
高雅丽 可信分布式计算与服务教育部重点实验室(北京邮电大学), 北京 100876
北京邮电大学网络空间安全学院, 北京 100876 
 
摘要点击次数: 103
全文下载次数: 56
中文摘要:
      我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.该文章主要介绍了目前应用较广的视觉语言表征的相应研究工作,包括传统的基于相似性模型的研究方法和目前主流的基于语言模型的预训练的方法.目前比较好的思路和解决方案是将视觉特征语义化然后与文本特征通过一个强大的特征抽取器产生出表征,其中Transformer[1]作为主要的特征抽取器被应用表征学习的各类任务中.文章分别从研究背景、不同研究方法的划分、测评方法、未来发展趋势等几个不同角度进行阐述.
英文摘要:
      We live in a multimedia world built from a large number of different modal contents.. The information between different modalities is highly correlated and complementary. The main purpose of multi-modal representation learning is to mine the different modalities. Commonness and characteristics produce implicit vectors that can represent multimodal information. This article mainly introduces the corresponding research work of the currently widely used visual language representation, including traditional research methods based on similarity models and current mainstream pre-training methods based on language models. The current better ideas and solutions are to semanticize visual features and then generate representations with textual features through a powerful feature extractor. Transformer[1] is currently used in various tasks of representation learning as the mainstream network architecture. This article elaborated from several different angles of research background, division of different studies, evaluation methods, future development trends, etc.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利