2018, 29(4):900-913. DOI: 10.13328/j.cnki.jos.005403
摘要:单张图像超分辨率重建受到多对一映射的困扰.对于给定的低分辨率图像块,存在若干高分辨率图像块与之对应.基于学习的方法受此影响,学习到的逆映射规则只能预测这些高分辨率图像块的均值,从而产生视觉上模糊的超分辨率重建结果.为了弥补歧义性造成的高频细节损失,提出了一种基于深度网络、利用在线检索的数据进行高频信息补偿的图像超分辨率重建算法.该方法构建一个深度网络,通过3个分支预测高分辨率重建结果:一条旁路直接将输入的低分辨率图像输入到网络的最后一层;一条内部高频信息重建路径基于低分辨率图像回归预测高分辨率图像,重建高分辨率图像的主要结构;另一条外部高频信息补偿路径根据内部重建的结果,从在线检索到的相似图像中提取高频细节,对内部重建的结果进行细节补偿.在第2条路径中,为了有效提取高频信号并使之适应于内部重建的重建结构,在多层特征的测量和约束下,进行高频细节迁移.相比于之前基于云数据库的传统图像超分辨率方法,所提出的方法是端对端可训练的(end-to-end trainable),因此,通过在大数据上进行学习,该方法能同时建模内部重建和外部补偿,并能自动权衡两者利弊从而给出最优的重建结果.图像超分辨率重建的实验结果表明,相比于最新的超分辨率算法,所提方法在主客观评价中均取得了更加优越的性能.
2018, 29(4):914-925. DOI: 10.13328/j.cnki.jos.005405
摘要:人脸超分辨率(super-resolution,简称SR)即将输入模糊的低分辨率(low-resolution,简称LR)人脸图像通过一系列算法处理得到较为清晰的高分辨率(high-resolution,简称HR)人脸图像的过程.相比自然图像,不同人脸图像的相同位置通常具有相似的结构.针对人脸图像的局部结构一致性特点,提出一种新的基于图结构的人脸超分辨率神经网络回归方法.将输入低分辨率图像表示为图结构,进而为图结构中每一个节点的局部表示训练一个浅层神经网络进行超分辨率回归.与基于规则矩形网格的方法相比,图结构在描述一个像素的局部信息时,不仅考虑到图像坐标的相关性,同时也关注了纹理的相似性,能够更好地表达图像局部特征.训练过程中,利用已收敛的相邻节点的神经网络参数初始化当前节点的神经网络参数,不仅加快了神经网络的收敛速度,而且提高了预测精度.与包括深度卷积神经网络在内的基于学习的超分辨率最新算法比较,实验结果表明,所提算法取得了更高的准确率.提出的图神经网络(graph neural networks,简称GNN)并不局限于解决人脸超分辨率问题,还可以用于处理其他具有不规则拓扑结构的数据,解决不同的问题.
2018, 29(4):926-934. DOI: 10.13328/j.cnki.jos.005407
摘要:图像超分辨率一直是底层视觉领域的研究热点,现有基于卷积神经网络的方法直接利用传统网络模型,未对图像超分辨率属于回归问题这一本质进行优化,其网络学习能力较弱,训练时间较长,重建图像的质量仍有提升空间.针对这些问题,提出了基于深度反卷积神经网络的图像超分辨率算法,该算法利用反卷积层对低分辨率图像进行上采样处理,再经深度映射消除由反卷积层造成的噪声和伪影现象,使用残差学习降低网络复杂度,同时避免了因网络过深导致的网络退化问题.在Set 5、Set 14等测试集中,所提算法的PSNR、SSIM、IFC这3项评价指标都优于FSRCNN,重建图像的视觉效果同样验证了该算法出色的性能.
2018, 29(4):935-944. DOI: 10.13328/j.cnki.jos.005415
摘要:聚类作为无监督学习技术,已在实际中得到了广泛的应用.但是对于带有噪声的数据集,一些主流算法仍然存在着噪声去除不彻底和聚类结果不准确等问题.提出了一种基于密度差分的自动聚类算法(clustering based on density difference,简称CDD),实现了对含有噪声数据集的自动分类.所提算法根据噪声数据和有用数据密度的不同,实现了去噪声和数据的分类,并通过构建数据间的邻域,进一步实现了对有用数据间不同类别的划分.通过实验验证了所提算法的有效性.
2018, 29(4):945-956. DOI: 10.13328/j.cnki.jos.005416
摘要:随着信息技术的快速发展,现实生活中不断涌现出大量的多视角数据,由此应运而生的多视角学习已成为机器学习领域的研究热点.然而,在数据获取过程中,由于收集的难度、高额成本或设备故障等问题,往往导致收集到的多视角数据出现视角缺失,这使得一些多视角学习方法无法有效进行.为此,提出一种基于视角相容性的多视角数据缺失补全方法.通过监督的共享子空间学习,获得与每类多视角数据相对应的共享子空间,从而建立视角相容性判别模型.与此同时,基于共享子空间重构误差等同分布的假设,提出了针对视角缺失的多视角数据的共享表征获取方法,实现多视角缺失数据的预补全.在此基础上,进一步通过多元线性回归实现缺失视角的精确补全.此外,还把所提出的视角补全方法拓展到解决含有噪声的多视角数据的降噪问题.在UCI、COIL-20以及人工合成数据集上的实验结果验证了所提算法的有效性.
2018, 29(4):957-972. DOI: 10.13328/j.cnki.jos.005406
摘要:同态加密技术可用于保护数据隐私并允许对密文数据进行算术操作,在云计算安全上有着很好的应用前景.针对云计算中的隐私保护和数据安全等问题,提出了一种基于同态加密系统的图像鲁棒可逆水印算法,主要思想为:(1)对原始图像进行分块和利用Paillier加密系统进行加密得到密文图像;(2)在加密域中,通过模乘法逆元MMI(modular multiple inverse)方法和查询相应的密文映射表得到每个密文分块的统计量,然后利用同态特性对统计量进行直方图平移来嵌入水印信息;(3)在接收方,可从含水印的密文图像的统计量直方图中完整地提取水印,并可通过对统计量进行与嵌入过程相反的直方图平移操作来恢复原始密文图像;(4)含水印的密文图像在直接解密后可从其统计量直方图中完整地提取水印信息和恢复原始图像;(5)解密后的含水印图像在受到一定程度的攻击后(如JPEG/JPEG 2000压缩和叠加高斯噪声等),水印仍能正确提取.该算法实现了在不对原始图像进行预处理的情况下可直接在加密后的密文图像中嵌入水印,并可分别在加密域或明文域提取水印和恢复原始密文图像或原始明文图像,而且嵌入的水印对常见的图像处理操作具有一定的鲁棒性.实验仿真结果验证了该算法的有效性.
2018, 29(4):973-986. DOI: 10.13328/j.cnki.jos.005410
摘要:随着多客户端交互多媒体应用的快速发展,屏幕内容图像(screen content image,简称SCI)的分发和处理与日俱增.图像质量评价课题的研究是其他许多应用的基础,至今图像质量评价课题研究的重点是传统自然图像,因此,针对屏幕图像质量评价的研究就变得非常迫切和必要.客观图像质量评价算法提出的基础建立在标准图像质量评价数据库上.首先构建了一个大规模的屏幕内容图像质量评价数据库(immersive media laboratory screen content image quality database,简称IML-SCIQD).IML-SCIQD数据库包含参考图像25幅以及经过10种失真处理的1 250幅失真图像.以建立的IML-SCIQD数据库为基础,考虑到屏幕内容图像的图像区域与文本区域的视觉感知差异,在基于自然场景统计的无参考方法的启发下,提出了针对屏幕内容图像的无参考评价算法(natural scene statistics based no reference screen content image quality assessment metric,简称NSNRS).NSNRS算法首先分别计算图像区域和文本区域的质量分数,再将这两个区域的质量分数结合起来得到整幅失真图像的质量分数.该算法与其他12种经典的客观评价算法,包括全参考算法、部分参考算法与无参考算法,在IML-SCIQD数据库和SIQAD数据库上进行了性能测试和对比,结果表明,所提出的算法优于经典的无参考评价算法;就整个数据库而言,所提出的算法可以达到与全参考方法相当的性能.
2018, 29(4):987-1001. DOI: 10.13328/j.cnki.jos.005411
摘要:现今主流的图像隐写分析方法主要聚焦于设计检测特征,用以提高通用盲检测(universal blind detection,简称UBD)模型的检测准确率,这类检测方法与待测图像无关,难以做到精准检测.在拥有大数据训练资源的前提下,研究了隐写对图像特征的影响,找出了隐写分析与图像特征之间的重要关系,基于此提出了一种为测试样本选择专用训练集的隐写分析方法.以经典的JPEG隐写算法nsF5和主流的JPEG隐写分析特征(CC-PEV、CC-Chen、CF*、DCTR和GFR)为例组织实验,结果表明,该方法的检测准确率高于其他同类方法.
2018, 29(4):1002-1016. DOI: 10.13328/j.cnki.jos.005413
摘要:针对可用于图像篡改的内容感知缩放技术,提出了一种基于概率Map图统计特征的内容感知缩放检测算法.该算法利用概率Map图以反映图像是否经过内容感知缩放操作,并利用新提出的积分投影与局部统计特征来检测篡改图像.而后利用分类器进行分类训练,从而有效识别基于内容感知缩放操作的图像篡改.实验结果显示,所提算法能够区分出原始图像与篡改图像,并具有较高的正确检测率.
2018, 29(4):1017-1028. DOI: 10.13328/j.cnki.jos.005402
摘要:时空上下文跟踪算法充分地利用空间上下文中包含的结构信息能够有效地对目标进行跟踪,实时性优良.但该算法仅利用单一的灰度信息,使得目标的表观表达缺乏判别性,而且该方法在由于遮挡等问题造成的跟踪漂移后无法进行初始化.针对时空上下文算法存在的弱点,提出了一种基于低秩重检测的多特征时空上下文跟踪方法.首先,利用多特征对时空上下文进行多方面的提取,构建复合时空上下文信息,充分利用目标周围的特征信息,提高目标表观表达的有效性.其次,利用简单、有效的矩阵分解方式将跟踪到的历史跟踪信息进行低秩表达,将其引入有效的在线重检测器中来保持跟踪结构的一致稳定性,解决了跟踪方法在跟踪失败后的重定位问题,在一系列跟踪数据集上的实验结果表明,该算法与原始算法及当前的主流算法相比有更好的跟踪精度与鲁棒性,且满足实时性要求.
2018, 29(4):1029-1038. DOI: 10.13328/j.cnki.jos.005404
摘要:在图像分类任务中,为了获得更高的分类精度,需要对图像提取不同层次的特征信息.深度学习被越来越多地应用于大规模图像分类任务中.提出了一种基于深度卷积神经网络的、可应用于大规模图像分类的深度学习框架.该框架在经典的深度卷积神经网络AlexNet基础上,分别从网络框架和网络内部结构两个方面对网络进行了优化和改进,进一步提升了网络的特征表达能力.同时,通过在全连接层引入隐层,使得网络能够同时具备学习图像特征和二值哈希的功能,从而使该框架具有处理大规模图像数据的能力.通过在3个标准数据库中的一系列比对实验,分析了不同优化方法在不同情况下的作用,并证明了所提优化方法的有效性.
2018, 29(4):1039-1048. DOI: 10.13328/j.cnki.jos.005408
摘要:计算机计算性能的提升使得深度学习成为了可能.作为计算机视觉领域的重要发展方向之一的目标检测也开始结合深度学习方法并广泛应用于各行各业.受限于网络的复杂度和检测算法的设计,目标检测的速度和精度成为一个trade-off.目前电商领域的飞速发展产生了大量包含商品参数的图片,使用传统方法难以有效地提取出图片中的商品参数信息.针对这一问题,提出了一种将深度学习检测算法和传统OCR技术相结合的方法,在保证识别速度的同时大大提升了识别的精度.所研究的问题包括检测模型、针对特定数据训练、图片预处理以及文字识别等.首先比较了现有的目标检测算法,权衡其优缺点,然后使用YOLO模型完成检测任务,并针对YOLO模型中存在的不足进行了一定的改进和优化,得到了一个专用于检测图片中商品参数的目标检测模型,最后使用tesseract完成文字提取任务.在将整个流程结合到一起后,该系统不仅有着较好的识别精度,而且是高效和健壮的.最后讨论了优势和不足之处,并指出了未来工作的方向.
2018, 29(4):1049-1059. DOI: 10.13328/j.cnki.jos.005409
摘要:空气中的尘埃、污染物及气溶胶粒子的存在严重影响了大气预测的有效性,毫米波雷达云图的有效分割成为解决这一问题的关键.提出了一种基于超像素分析的全卷积神经网路FCN和深度卷积神经网络CNN(FCN-CNN)的云图分割方法.首先通过超像素分析对云图每个像素点的近邻域实现相应的聚类,同时将云图输入到不同步长的全卷积神经网络FCN 32s和FCN 8s中实现云图的预分割;FCN 32s预测结果中的"非云"区域一定是云图中的部分"非云"区域,FCN 8s预测结果中的"云"区域一定是云图中的部分"云"区域;余下的不确定的区域通过深度卷积神经网络CNN进行进一步分析.为提高效率,FCN-CNN选取了不确定区域中超像素的几个关键像素来代表超像素区域的特征,通过CNN网络来判断关键像素是"云"或者是"非云".实验结果表明,FCN-CNN的精度与MR-CNN、SP-CNN相当,但是速度相比于MR-CNN提高了880倍,相比于SP-CNN提高了1.657倍.
2018, 29(4):1060-1070. DOI: 10.13328/j.cnki.jos.005412
摘要:自动情感识别是一个非常具有挑战性的课题,并且有着广泛的应用价值.探讨了在多文化场景下的多模态情感识别问题.从语音声学和面部表情等模态分别提取了不同的情感特征,包括传统的手工定制特征和基于深度学习的特征,并通过多模态融合方法结合不同的模态,比较不同单模态特征和多模态特征融合的情感识别性能.在CHEAVD中文多模态情感数据集和AFEW英文多模态情感数据集进行实验,通过跨文化情感识别研究,验证了文化因素对于情感识别的重要影响,并提出3种训练策略提高在多文化场景下情感识别的性能,包括:分文化选择模型、多文化联合训练以及基于共同情感空间的多文化联合训练,其中,基于共同情感空间的多文化联合训练通过将文化影响与情感特征分离,在语音和多模态情感识别中均取得最好的识别效果.
谢宁 , 赵婷婷 , 杨阳 , 魏琴 , Heng Tao SHEN
2018, 29(4):1071-1084. DOI: 10.13328/j.cnki.jos.005414
摘要:在众多传统艺术绘画形式中,笔触是被现代计算机绘画工具(GIMP、Photoshop和Painter)普遍采用的形式之一.创新性地提出了服务于非真实感渲染AI辅助艺术创作系统(A4).系统能够实现自动生成特定艺术家风格的笔触效果.该系统在强化学习框架下,主要进行以下研究工作:(1)提出基于PGPE的正则化策略学习方法以提高风格学习过程的稳定性;(2)利用IRL(inverse reinforcement learning)算法实现了艺术风格行为的模型化及其数字化保护方法.实验结果表明,所提方法行之有效地实现了针对具体个性风格的照片水墨画艺术风格转化.
2018, 29(4):1085-1093. DOI: 10.13328/j.cnki.jos.005536
摘要:量子硬件设计与制造技术的飞速发展使得人们开始预言大于100个量子比特的特定用途的量子计算机有望在5~10年内实现.可以想见,到那时候,量子软件的开发将变成真正发挥这些计算机能力的关键因素.然而,由于量子信息的不可克隆性和纠缠的非局域作用等量子特征,如何设计正确、高效的量子程序和量子通信协议将是一个富有挑战性的课题.形式化验证方法,特别是模型检测技术,已在经典软件设计和系统建模方面被证明行之有效,因此量子软件的形式化验证也开始受到越来越多的关注.从量子顺序程序验证和量子通信协议验证两方面,对近年来国内外学者,尤其对University of Technology Sydney和清华大学的研究组在该研究领域取得的一些成果进行了系统的总结.最后,对未来可能的研究方向和面临的挑战进行了简单展望.
2018, 29(4):1094-1114. DOI: 10.13328/j.cnki.jos.005280
摘要:BPMN 2.0编排已成为描述业务流程间交互事实上的标准.BPMN 2.0编排面向流的特征,使之会产生控制流方面的语义错误.因此,检查编排语义正确性是BPMN 2.0编排建模工具所期望具有的功能.但是,BPMN 2.0标准规约中的编排缺少形式语义及相应的分析技术,这阻碍了对BPMN 2.0编排的语义分析.提出了一种映射,用于将BPMN 2.0编排转换为工作流网,使用Petri网来形式化定义BPMN 2.0编排的语义.借助Petri网的分析技术,这种定义的语义可用来分析BPMN 2.0编排的结构和控制流方面的错误.该映射和语义分析已被实现为一种工具.实验结果表明,这种形式化可以识别BPM AI过程模型库中编排的语义错误.
2018, 29(4):1115-1130. DOI: 10.13328/j.cnki.jos.005261
摘要:随着微博的发展,其影响力日益增大,对微博主题内容进行分析具有重要的价值.主题模型技术能够从文本数据中提取主题,但是,由于微博文本短、随意性大、信息量小等特点,微博主题的分析具有一定的难度.提出了一个微博主题可视分析系统,利用多种互相关联的视图与丰富的交互手段,支持用户对主题模型结果进行分析与探索.系统结合了微博数据的特点,引入微博用户与时间因素,支持分析者从多角度对微博主题进行全面分析.系统支持用户在主题可视分析的基础上,通过交互操作对主题进行编辑,从而改进主题模型,提高模型的准确性和可靠性.案例分析结果表明,提出的系统可以有效地帮助用户分析微博主题和修正主题.
2018, 29(4):1131-1142. DOI: 10.13328/j.cnki.jos.005263
摘要:受限制的玻尔兹曼机(RBM)是一种无向图模型.基于RBM的深度学习模型包括深度置信网(DBN)和深度玻尔兹曼机(DBM)等.在神经网络和RBM的训练过程中,过拟合问题是一个比较常见的问题.针对神经网络的训练,权值随机变量(weight random variables)、Dropout方法和早期停止方法已被用于缓解过拟合问题.首先,改变RBM模型中的训练参数,使用随机变量代替传统的实值变量,构建了基于随机权值的受限的波尔兹曼机(weight uncertainty RBM,简称WRBM),接下来,在WRBM基础上构建了相应的深度模型:Weight uncertainty Deep Belief Network(WDBN)和Weight uncertainty Deep Boltzmann Machine(WDBM),并且通过实验验证了WDBN和WDBM的有效性.最后,为了更好地建模输入图像,引入基于条件高斯分布的RBM模型,构建了基于spike-and-slab RBM(ssRBM)的深度模型,并通过实验验证了模型的有效性.
谢承旺 , 肖驰 , 丁立新 , 夏学文 , 朱建勇 , 张飞龙
2018, 29(4):1143-1162. DOI: 10.13328/j.cnki.jos.005275
摘要:现实中不断涌现出数目众多且日益复杂的多目标优化问题,迫切需要发展新型多目标优化算法以应对挑战.将基本萤火虫算法拓展至多目标优化领域,提出一种混合型多目标萤火虫算法HMOFA(hybrid multi-objective firefly algorithm).该算法提出使用混合水平正交实验设计和连续决策空间量化的方法生成接近于用户指定规模且均匀分布于搜索空间的初始种群,为后续的进化提供良好的起始点;利用外部档案中的精英解个体引导萤火虫移动,促使算法较快收敛;运用3点最短路径方法维持外部档案的多样性.HMOFA算法与另外5种代表性多目标进化算法一同在17个基准多目标测试题上进行性能比较,实验结果表明,HMOFA算法在收敛性、多样性和鲁棒性方面总体上具有较显著的性能优势.
2018, 29(4):1163-1176. DOI: 10.13328/j.cnki.jos.005269
摘要:如何发现高质量的社区结构对于深刻研究和分析基于位置的社交网络(location-based social networks,简称LBSN)这种新型复杂网络具有重要意义,然而,现有的面向社交网络的社区发现方法都无法适用于具有多维异构关系的LBSN.为此,提出了一种基于联合聚类的用户社区发现方法Multi-BVD,该方法首先给出了融合用户社交网络与地理位置标签网络中多模实体及其异构关系的社区划分目标函数,然后使用拉格朗日乘子法得到目标函数极小值的迭代更新规则,并运用块值矩阵分解技术来确定最优的社区划分结果.仿真实验结果表明,Multi-BVD方法能够有效地发现LBSN中具有地理特征的用户社区结构,该社区结构在社交关系和地理兴趣标签上都有更优的内聚性,并能更紧密地体现用户社区与地理标签簇间的兴趣关联性.