受限玻尔兹曼机(restricted Boltzmann machine,简称RBM)是一种概率无向图,传统的RBM模型假设隐藏层单元是二值的,二值单元的优势在于计算过程和采样过程相对简单,然而二值化会对基于隐藏层单元的特征提取和数据重构过程带来信息损失.因此,将RBM的可见层单元和隐藏层单元实值化并保持模型训练的有效性,是目前RBM理论研究的重点问题.为了解决这个问题,将二值单元拓展为实值单元,利用实值单元建模数据并提取特征.具体而言,在可见层单元和隐藏层单元之间增加辅助单元,然后将图正则化项引入到能量函数中,基于二值辅助单元和图正则化项,流形上的数据有更高的概率被映射为参数化的截断高斯分布;同时,远离流形的数据有更高的概率被映射为高斯噪声.由此,模型的隐层单元可以被表示为参数化截断高斯分布或高斯噪声的采样实值.该模型称为基于辅助单元的受限玻尔兹曼机(restricted Boltzmann machine with auxiliary units,简称ARBM).在理论上分析了模型的有效性,然后构建了相应的深度模型,并通过实验验证模型在图像重构任务和图像生成任务中的有效性.
Restricted Boltzmann machine (RBM) is a probabilistic undirected graph, and most traditional RBM models assume that their hidden layer units are binary. The advantage of binary units is their calculation process and sampling process are relatively simple. However, binarized hidden units may bring information loss to the process of feature extraction and data reconstruction. Therefore, a key research point of RBM theory is to construct real-valued visible layer units and hidden layer units, meanwhile, maintain the effectiveness of model training. In this study, the binary units are extended to real-valued units to model data and extract features. To achieve this, specifically, an auxiliary unit is added between the visible layer and the hidden layer, and then the graph regularization term is introduced into the energy function. Based on the binary auxiliary unit and graph regularization term, the data on the manifold has a higher probability to be mapped as a parameterized truncated Gaussian distribution, simultaneously, the data far from the manifold has a higher probability to be mapped as Gaussian noises. The hidden units can be sampled as real-valued units from the parameterized Gaussian distribution and Gaussian noises. In this study, the resulting RBM based model is called restricted Boltzmann machine with auxiliary units (ARBM). Moreover, the effectiveness of the proposed model is analyzed theoretically. The effectiveness of the model in image reconstruction task and image generation task is verified by experiments.
近年来, 深度学习引起了广泛关注.基于概率图和神经网络的受限玻尔兹曼机(restricted Boltzmann machine, 简称RBM)、变分自编码(variational autoencoder, 简称VAE)和生成对抗网络(generative adversarial network, 简称GAN)被广泛应用于图像分类和图像生成任务中[
为了有效地参数化可见层单元的激活概率并建模数据中的流形结构, 本文在可见层单元和隐藏层单元之间增加二值的辅助单元从而实值化可见层单元和隐藏层单元, 并在RBM的能量函数中引入了Laplacian正则化项来构建特征化的隐藏层单元表达, 由此提出了基于辅助单元的受限玻尔兹曼机(restricted Boltzmann machine with auxiliary units, 简称ARBM).具体而言, 假设ARBM中的可见层单元和隐藏层单元服从截断高斯分布, 模型参数化截断高斯分布中的期望和协方差.基于实值隐藏层单元, 可见层单元的条件激活概率可以看作是无限数量的截断高斯分布的加权和, 从而能够拟合复杂的数据分布.在ARBM中, 基于二值辅助单元和图正则化项, 当样本靠近数据流形时, 它有更高的概率被映射为参数化的截断高斯分布; 反之, 远离流形的样本更可能被映射为高斯噪声.辅助单元的另一个作用是缓解过拟合问题, 过拟合在神经网络和RBM的训练中普遍存在, 而dropout方法是缓解过拟合问题的常用方法.在基于dropout方法的RBM模型中, 可见层和隐藏层中的部分单元被随机屏蔽, 这可能会影响RBM的特征提取能力和图像重构能力[
(1) 在可见层和隐藏层之间引入二值附加单元, 提出了ARBM模型.基于能量函数中的图正则化项和附加单元, ,靠近数据流形的样本有更高的概率被参数化为截断高斯分布的形式, 远离流形的样本有更高的概率被映射为高斯噪声, 因此, ARBM可以有效地学习数据中的流形结构, 并将其表示为隐藏层的参数化特征;
(2) 为了构建有效的深度生成模型, 本文将ADBN提取的深度特征用作CGAN的附加输入, 提出了ACGAN模型.与传统的随机噪声相比, 这些深度特征能为GAN提供更稳定有效的初始状态, 从而生成高质量的图像、缓解GAN模型训练不稳定的问题.
本文第1节介绍基础理论, 包括RBM和CGAN.第2节详细介绍ARBM及其相应的深生成模型ADBN和ACGAN.在第3节中, 本文通过实验验证所提出模型的有效性.最后一部分是结论和展望.
典型的RBM模型由可见层
RBM的拓扑结构及其训练过程
Topology of an RBM and its training process
在
其中,
典型RBM模型的目标是最大化其边缘分布
根据极大似然估计, 似然函数关于参数的梯度可以表示如下:
将公式(5)表示为期望的形式, 可以得到:
如公式(6)所示: 等式右边的第1项称为模型期望, 第2项称为数据期望, 两个期望的差值决定了似然函数关于参数的梯度.直观上看, 数据期望给出了参数迭代的起始条件, 模型期望提供了迭代的终止条件.随着迭代的进行, 数据期望和模型期望逐渐接近, RBM的训练随迭代趋于稳定.此时, RBM模型建模了输入样本的分布特性.然而在大样本下, 精确地计算这两个期望是非常困难的, 尤其是模型期望.因此, 为了降低RBM训练的复杂度, 需要对似然函数的梯度做近似.为此, Hinton等学者提出了对比散度算法(contrastive divergence, 简称CD)来近似似然函数的梯度.除了对比散度算法, 还有其他一些类型的方法可以用于近似计算RBM的梯度[
作为近些年最受关注的生成模型, 生成对抗网络(generative adversarial net, 简称GAN)得到了广泛的应用. GAN的优势在于可以回避难以直接计算的基于模型分布的积分函数, 只使用反向传播就可以根据梯度训练生成模型, 不需要推理.此外, 当生成器和判别器在某些额外的条件
CGAN的结构图
Structure of a CGAN
作为一个CGAN模型, 其输入的条件
首先, 我们通过直观的方式分析二值单元在RBM特征表达方面存在的不足.为了方便表述, 假设模型有一个隐藏层单元, 且只考虑单个样本的情形.根据模型的独立性假设, 在此基础上, 可以很方便地推广到多样本多隐藏层单元的情形.二值RBM不能有效地建模实值数据, 是因为对实值数据二值化的过程中, 数据中一些重要的相关性信息可能会丢失.为了建模实值数据, 传统的Gaussian-binary RBM假设其可见层单元的条件概率服从高斯分布, 其隐藏层单元为二值的.基于极大似然估计, 目标函数可以表示为
Gaussian-binary RBM中可见层单元未加权的边缘分布示意图
A sketch map of Unweighted marginal distribution of the visible units in a Gaussian-binary RBM
如果一个分布的密度函数
ARBM的结构图
Structure of the ARBM
ARBM的能量函数可以表示如下:
其中,
其中,
其中,
证明: 假设一个mini-batch包含
其中,
因此,
基于命题1, 在ARBM中, 如果样本位于流形附近, 则更有可能映射到参数化概率, 并且可以学习到流形特征保留在隐藏层中; 反之, 如果样本远离流形, 则更有可能退化为隐藏层的高斯噪声.
ARBM可以用CD算法训练, 似然函数关于参数的梯度可以表示为
能量函数的梯度可以表示为
在ARBM中, 为了计算截断高斯分布下的期望值, 借鉴高斯图模型, 本章采用文献[
ARBM本身作为一种概率图模型, 既可以用于判别任务, 也可以用于生成任务.本文关注的重点是基于ARBM的生成模型.由于ARBM本身是一种单隐藏层神经网络结构, 其特征表达能力有限, 因此我们需要根据ARBM模型构建相应的深度神经网络结构.
首先, 我们构建了一个基于ARBM的深度置信网, 该神经网络含有2个隐藏层, 本文称其为基于附加单元的实值深度置信网(real-valued deep belief net with auxiliary units, 简称ADBN), 该ADBN的网络结构如
ADBN模型的结构图
Structure of an ADBN
ARBM和ADBN可以直接用于图像生成和图像分类任务, 但由于RBM训练过程中的标准卷积运算和最大池化运算是不可逆的, 因此ARBM很难与卷积神经网络相结合构建深度神经网络结构.为了建立更强大的深度神经网络, 我们利用ADBN提取的深层特征作为条件GAN(CGAN)的条件输入数据, 建立深层生成神经网络. GAN被训练以最小化数据分布与模型分布之间的距离, 而不是最大化似然函数.然而GAN训练是不稳定的, 通常观察到具有相似结构和超参数的生成器在不同的训练批次中表现出显著不同的行为.虽然RBM训练需要使用基于采样的算法, 但RBM的优势在于不存在模式丢失问题且RBM训练是稳定的.为了充分利用ARBM的优势, 并结合卷积操作生成清晰锐利的图像, 本文利用ADBN提取的深度特征作为CGAN的条件输入
ACGAN模型的结构图
Structure of an ACGAN
其中,
在实验中, 我们尝试验证基于ARBM的模型在图像生成和图像重构任务中的有效性.实验主要分为两部分: 一部分是图像重构, 另一部分是图像生成.为了验证ARBM能够学习数据分布的流形结构, 我们首先在3个人工数据集上进行对比实验, 其中使用的基于RBM的模型具有完全相同的网络结构.结果如
3个人工数据集上ARBM与其他模型的比较
Comparison of ARBM with other models on three artificial datasets
● 第1列样本是原始数据;
● 第2列样本是由Gaussian-binary RBM重构得到的, Gaussian-binary RBM是一种可见层单元为实值、隐藏层单元为二值的RBM模型;
● 第3列样本由受限截断高斯图模型(RTGMM)重构得到.RTGMM是在2017年提出的一种无向概率图, 其可见层单元和隐藏层单元都是实值的.不同于ARBM, RTGMM由一个可见层和一个隐藏层组成, 其可见层单元和隐藏层单元是直接连接的;
● 最后一列样本由ARBM重构得到.
如
接下来, 本实验在真实数据集上测试ARBM和ADBN的图像重构能力.数据集有MNIST, small Norb, Fashion和Cifar-10.数据集的属性见
数据集的属性
Attributes of data sets
数据集 | 训练样本 | 测试样本 | 属性 | 标签 |
MNIST | 50 000 | 10 000 | 28×28 | 10 |
small Norb | 24 300 | 24 300 | 32×32 | 5 |
Fashion | 50 000 | 10 000 | 28×28 | 10 |
Cifar-10 | 50 000 | 10 000 | 32×32 | 10 |
MNIST数据集是由250名来自不同人群的实验人员完成的手写数字数据集, 其中包括MNIST基本数据集、MNIST back-rand数据集和MNIST back image数据集等.Norb是一个由灰度化的双视角玩具图像组成的数据集, 包含5类玩具(人、动物、汽车、飞机、卡车), 在不同的光照条件下, 由相机系统从不同的角度进行成像.本节实验将两幅立体图像的原始分辨率从108×108×2降低到32×32×2, 以加快实验速度.Fashion数据集包含了10个类别的图像, 分别是t-shirt, trouser, pullover, dress, coat, sandal, shirt, sneaker, bag, ankle boot.Cifar-10是常用于目标识别的计算机视觉数据集, 它是8 000万个微型图像数据集的一个子集, 由60 000个32×32分辨率的彩色图像组成, 包含10对象类, 每个类有6 000个图像.
本实验在MNIST, small Norb和Cifar-10上测试了这些模型的图像重构能力, 原始图像如
MNIST, small Norb和Cifar-10的原始图像
Original images of MNIST, small Norb, and Cifar-10
与GAN不同, ARBM和ADBN的模式塌陷问题并不严重.然而, 似然函数过平滑的问题阻碍了模型生成锐利的图像.为了保持多模态特征并产生清晰的图像, 本文将提取的ADBN特征作为CGAN的条件输入, 测试了ACGAN的生成能力.第1个实验在MNIST数据集上测试了所提出的ARBM, ADBN的图像重构能力以及ACGAN的图像生成能力.所用的ARBM具有1 000个隐藏层单元, 重构和生成的图像如
在MNIST上的重构图像和生成的图像
Reconstructed images and generated images on MNIST
在
接下来, 本文测试了所提出的模型在small Norb数据集上的图像重构能力和图像生成能力.实验中, ACGAN中的生成器有2个全连接层和2个反卷积层, 判别器有2个卷积层和2个全连接层.生成器和判别器均采用leakyReLU激活函数以及Batch-Norm.DCGAN, LSGAN和WGAN-GP具有与ACGAN相同的网络结构.生成器和判别器的初始学习率为8e−5.
small Norb上的重构图像和生成图像
Reconstructed images and generated images on small Norb
在
Fashion上的重构图像和生成图像
Reconstructed images and generated images on Fashion
在
Cifar-10对于32×32分辨率的图像生成任务而言是困难的, 因为Cifar-10是彩色的, 其背景也更复杂.特别是对于没有卷积结构的浅层网络(如ARBM), 很难生成Cifar-10数据.本节尝试使用两个隐藏层的ADBN来学习Cifar-10数据集.在ADBN中, 第1隐藏层有5 000个单元, 第2隐藏层有1 500个单元.ADBN重构的图像和生成的图像如
DBM, Real NVP, DCGAN, WGAN-GP, 以及ACGAN模型在Cifar-10数据集上的生成图像
Generated images of DBM, real NVP, DCGAN, WGAN-GP, and ACGANmodels on cifar-10 dataset
如
ACGAN和常用生成模型的FID
FID of ACGAN and commonly used generative models
数据集 | LSGAN | WGAN | WGAN-GP | ACGAN |
MNIST | 7.8±0.6 | 6.7±0.4 | 6.4±0.4 | 6.2±0.2 |
small Norb | 47.2±2.4 | 39.7±2.4 | 39.1±2.3 | 38.2±2.1 |
Fasion | 30.7±2.2 | 21.5±1.6 | 20.4±1.5 | 20.2±1.0 |
Cifar-10 | 53.9±2.8 | 41.3±2.0 | 40.7±1.8 | 41.1±1.6 |
从
本文将辅助变量和流形正则项引入到能量函数中, 并使用实值隐藏层单元来模拟可见单位的概率.我们验证了ARBM和ADBN在图像生成任务中的有效性.为了融合卷积深度神经网络生成清晰锐利的图像, 本文提出了一种ACGAN模型.实验验证了该模型的有效性.但是, ARBM仍然存在一些问题, 传统的算法(PCD算法和改变Gibbs采样)在训练ARBM时是非常耗时的.目前, 无向图的训练算法主要有变分法、马尔可夫链和基于对抗损失的训练方法.优化无向图的训练算法仍然是我们未来研究的重点.
Kingma D, Welling M. Auto-encoding variational bayes. In: Proc. of the Int'l Conf. on Learning Representations. 2014.
Goodfellow I, Pouget-Abadie J, Mirza M,
Kuleshov V, Ermon S. Neural variational inference and learning in undirected graphical models. In: Proc. of the Advances in Neural Information Processing Systems. 2017.
Fisher C, Smith A, Walsh J. Boltzmann encoded adversarial machines. arXiv: 1804.08682, arXiv, 2018.
Ranzato M, Krizhevsky A, Hinton G. Factored 3-way restricted Boltzmann machines for modeling natural images. Journal of Machine Learning Research, 2010, 9: 621-628.
Courville A, Desjardins G, Bergstra J,
Sohn K, Zhou G, Lee C,
Srivastava N, Hinton G, Krizhevsky A,
Blundell C, Cornebise J, Kavukcuoglu K. Weight uncertainty in neural networks. In: Proc. of the Int'l Conf. on Machine Learning. 2015.
Zhang N, Ding S, Zhang J,
Huang H, Toyoizumi T. Advanced mean-field theory of the restricted Boltzmann machine. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2015.
Zhang N, Ding S, Zhang J,
Zhang J, Ding S, Zhang N. An overview on probability undirected graphs and their applications in image processing. Neurocomputing, 2018, 321: 156-168.
Isola P, Zhu J, Zhou T,
Cho K, Raiko T, Ilin A. Gaussian-bernoulli deep Boltzmann machine. In: Proc. of the IEEE Int'l Joint Conf. on Neural Networks. 2014.
Su Q, Liao X, Chen C,
Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv: 1511.06434, arXiv, 2018.
Gulrajani I, Ahmed F, Arjovsky M,
Dinh L, Sohl-Dickstein J, Bengio S. Density estimation using Real NVP. In: Proc. of the Int'l Conf. of Learning Research. 2016.