软件学报  2020, Vol. 31 Issue (8): 2588-2602   PDF    
面向医学图像分割的半监督条件生成对抗网络
刘少鹏1,2 , 洪佳明3 , 梁杰鹏1 , 贾西平1 , 欧阳佳1 , 印鉴4     
1. 广东技术师范大学 计算机科学学院, 广东 广州 510665;
2. 广东省大数据分析与处理重点实验室(中山大学), 广东 广州 510006;
3. 广州中医药大学 医学信息工程学院, 广东 广州 510006;
4. 中山大学 数据科学与计算机学院, 广东 广州 510006
摘要: 医学图像分割是计算机辅助诊断的关键技术.青光眼作为全球第二大致盲眼病,其早期筛查和临床诊断依赖于眼底图的视盘和视杯的准确分割.但传统的视盘和视杯分割方法采用人工构建特征,模型泛化能力差.近年来,基于卷积神经网络的端对端学习模型可通过自动发现特征来分割视盘和视杯,但由于标注样本有限,模型难以训练.提出一个基于半监督条件生成对抗网络的视盘和视杯两阶段分割模型——CDR-GANs.该模型的每个分割阶段均由语义分割网络、生成器和判别器构成,通过对抗学习,判别器引导语义分割网络和生成器学习眼底图及其分割图的联合概率分布.在真实数据集ORIGA上的实验结果表明,CDR-GANs在均交并比(mean intersection over union,简称MIoU)、CDR绝对误差(absolute CDR error)和实际分割效果这些指标上明显优于现有模型.
关键词: 医学图像    深度学习    生成对抗网络    半监督学习    青光眼筛查    
Medical Image Segmentation Using Semi-supervised Conditional Generative Adversarial Nets
LIU Shao-Peng1,2 , HONG Jia-Ming3 , LIANG Jie-Peng1 , JIA Xi-Ping1 , OUYANG Jia1 , YIN Jian4     
1. School of Computer Science, Guangdong Polytechnic Normal University, Guangzhou 510665, China;
2. Guangdong Key Laboratory of Big Data Analysis and Processing(Sun Yat-sen University), Guangzhou 510006, China;
3. School of Medical Information Engineering, Guangzhou University of Chinese Medicine, Guangzhou 510006, China;
4. School of Data and Computer Science, Sun Yat-sen University, Guangzhou 510006, China
Abstract: Medical image segmentation is a key technology in computer aided diagnosis. As a widespread eye disease, glaucoma may cause permanent loss in vision and its screening and diagnosis requires accurate segmentation of optic cup and disc from fundus images. Most traditional computer vision methods segment optic cup and disc with artificial features lead to limited generalization ability. While the end-to-end learning models based on convolutional neural networks focus on optic disc and cup segmentation using automatically detected features, but fail to tackle the lack of labeled samples, thus the segmentation performance is still barely satisfactory. This study proposes an effective two-stage optic disc and cup segmentation method based on semi-supervised conditional generative adversarial nets, namely CDR- GANs. Each stage builds upon three players—A segmentation net, a generator, and a discriminator, where the segmentation net and generator concentrate on learning the conditional distributions between fundus images and their corresponding segmentation maps, and the discriminator distinguishes whether the image-label pairs come from the empirical joint distribution. The extensive experiments show that the proposed method achieves state-of-the-art optic cup and disc segmentation results on ORIGA dataset.
Key words: medical image    deep learning    generative adversarial nets    semi-supervised learning    glaucoma screening    

青光眼是一种由眼内压间断或持续升高而造成不可逆的视神经受损的常见眼疾[1], 未及时发现与治疗, 视野会逐渐丧失以至失明.目前, 青光眼是导致人类失明的三大致盲眼病之一.全球青光眼患者约7 000万, 预计到2020年, 青光眼将影响全球8 000万人.而我国是世界上青光眼患者数量最多的国家[2].早期的青光眼筛查、诊断和治疗是预防视神经损害和失明的关键.

青光眼的早期筛查和临诊断主要由经验丰富的眼科医生通过眼底图的视杯与视盘的直径比, 即杯盘比(cup to disk ratio, 简称CDR)等指标来进行人工评估.通常, 青光眼患者的视杯容易发生增大异常的情况, 其CDR多在0.5以上[3].采用人工评估的效率较低, 且容易受医生经验等主观因素影响, 而利用计算机技术辅助青光眼诊断, 有助于减轻眼科医生的工作负担, 提高其工作效率与质量, 最终为患者提供更优质的服务, 具有重大的临床实践意义[4].

医学图像分割是计算机辅助诊断的关键技术[5, 6].计算CDR的前提在于识别出眼底图的视盘和视杯.因此, 如何准确分割眼底图的视盘和视杯已成为青光眼辅助诊断研究的热点.传统的视盘和视杯分割方法, 多利用边缘检测[7-10]、颜色特征[11, 12]和形态学[13, 14]等技术.但由于过分依赖人工特征, 无法自动发现抽象语义特征, 且人工特征数量规模通常较小, 进一步限制了模型泛化能力.

近年来, 深度学习作为完备的端对端模型, 能自动学习复杂数据的非线性高维特征, 具有强大的泛化能力, 已被广泛应用于图像处理任务[15-18], 包括眼科医学影像分析[19-28].针对视盘和视杯分割任务, 可采用经典的深度学习语义分割网络或目标检测模型[29-32].Pauline等人[33]指出:这些全卷积网络(fully convolutional networks, 简称FCNs)在预测眼底图每个像素的类别(包括视盘、视杯和背景)时, 往往忽略像素的空间相邻特点(spatial contiguity), 使得分割结果与真实结果存在高阶不一致性(higher-order inconsistency).Shankaranarayana等人[34]采用生成对抗网络框架(generative adversarial nets, 简称GANs)[35-37], 将全卷积网络作为生成器, 对眼底图进行视盘和视杯分割; 而判别器为二分类卷积神经网络, 对生成数据和真实数据进行真假判断, 通过对抗训练来修正分割结果与真实结果的高阶不一致性, 提升分割准确率.Sun等人[32]将视盘和视杯的识别视为多目标检测任务, 避免像素级别表示上的缺陷, 通过目标空间约束的高维特征来获得更准确的视盘和视杯区域.

上述面向视盘和视杯分割任务的深度学习模型均属于监督学习, 需要依赖大量标注数据来训练.然而, 人工标注是一项昂贵、耗时且单调乏味的工作, 对标注人员还要求具备相关的专业技术, 并接受专门的训练, 因此视盘和视杯分割标注数据十分有限, 导致模型难以训练.采用无监督方式的深度学习方法无须标注样本, 但在分割任务上效果一般, 原因在于缺乏足够的类别信息以区分图像中若干互不相交的联通区域[38].半监督学习作为一种折中, 能够同时利用标注数据和无标注数据来训练模型, 在分割任务上表现更优.Nasim等人[39]设计了一个基于GANs的语义分割半监督框架, 利用生成器提供额外的训练样本, 而判别器从多个可能的类别中, 为样本的每个像素点分配一个标签或者将其标记为虚假(额外的类), 改善分割效果.但判别器同时具备分类和鉴别真假两种相互冲突的能力, 这实际上无法兼容, 导致训练难度增加, 分割结果具有不稳定性.TripleGANs模型[40]将分类功能从判别器剥离, 判别器只对输入数据进行真假判断, 并设计了全新的分类器, 生成器仍然负责生成样本以提供额外训练数据, 整个框架由3个相互竞争对抗的网络构成, 在图像分类任务上明显提升了准确率, 但不能直接应用于语义分割.

综上, 针对眼底图的视盘和视杯分割任务, 本文提出一个基于半监督条件生成对抗网络的两阶段分割模型: CDR-GANs.在CDR-GANs中, 视盘分割和视杯分割是两个独立的阶段, 相比同时分割视盘和视杯难度较小, 且每个阶段的网络可灵活设计并独立训练, 有助于提升视盘和视杯识别准确率.每个分割阶段均由语义分割网络、生成器和判别器构成.语义分割网络可将有标注或无标注的眼底图生成分割图, 解决了标注样本不足的问题; 生成器则将真实的分割图作为输入来生成眼底图, 为进一步提高生成质量, 在生成器网络架构中增加残差模块[41]; 判别器负责鉴定生成样本和真实样本, 根据每次获得的真假结果进行对抗训练, 直至三方达到纳什均衡.最终, 在判别器引导下, 语义分割网络和生成器学习到眼底图及其分割图的联合概率分布.一旦训练好CDR- GANs, 即可对眼底图进行视盘和视杯两阶段分割, 用于CDR指标的计算.在真实数据集ORIGA上的实验表明, CDR-GANs在均交并比(mean intersection over union, 简称MIoU)、CDR绝对误差(absolute CDR error)和实际分割效果等指标上, 明显优于现有模型.

本文主要贡献如下:(1)提出基于半监督条件生成对抗网络的视盘和视杯两阶段分割模型CDR-GANs, 并给出理论分析; (2)在CDR-GANs模型设计中引入半监督学习, 充分利用有标注和无标注眼底图数据, 解决标注样本不足的问题, 更适合真实场景的视盘和视杯分割任务; (3)在真实数据集上进行大量实验, 验证了CDR- GANs模型的有效性, 可为青光眼早期筛查提供技术支持.

本文第1节回顾相关的研究工作.第2节详细阐述CDR-GANs模型的框架、理论与实现.第3节是关于CDR-GANs模型在真实数据集ORIGA上的实验分析与讨论.最后, 第4节给出结论和未来的工作.

1 相关工作

研究眼底图的视盘和视杯分割方法, 是利用计算机技术来辅助青光眼早期筛查和临床诊断的热点.主要研究方法包括传统的计算机视觉技术和深度学习.

1.1 基于传统计算机视觉技术的视盘和视杯分割

眼底图视盘和视杯分割传统方法, 多利用边缘检测[7-10]、颜色特征[11, 12]和形态学[13, 14]等技术.Aquino等人[7]融合形态学和边缘检测技术, 检测到更为光滑的圆形视盘边缘.Tan等人[8]设计了高斯混合分布模型以提取眼底图的视杯区域, 在包含71个样本的SiMES数据集上, 视杯边界检测错误率减少了14%.Yin等人[9]提出了ASM (active shape model)模型, 同时结合边缘检测、圆形Hough变换和统计变形模型, 可实现眼底图的视盘和视杯检测.Geetharamani等人[10]实现了基于模板匹配技术的视盘定位方法, 但模板创建需要依赖数据库图像的均值结果, 泛化效果有限.Joshi等人[11]提出了R-Bend(relevant-vessel bends)模型, 通过加入每个像素点的局部信息以强化视盘边缘检测, 并根据血管扭结多分布在视杯边界等结构信息, 辅助视杯分割.Yin等人[12]分别利用眼底图的红色通道和绿色通道来识别视盘和视杯, 并引入Hough变换检测视盘边缘.Zheng等人[13]利用图割技术设计了一个适用于视杯和视盘分割的优化框架, 其泛化能量函数能刻画视盘和视杯的形状、位置、边缘以及联系等先验知识, 改进分割结果.Damon等人[14]利用血管扭结帮助更好地检测视杯边界, 实验表明:在67个眼底图的数据集上, 错误率下降了43.3%.

这些方法过于依赖人工设计的结构化特征, 但人工特征难以准确描述复杂医学图像所隐含的知识, 且数量规模通常较小, 限制了模型的泛化能力.

1.2 基于深度学习的视盘和视杯分割

目前, 深度学习已广泛应用于医学图像分析[42].全卷积网络和生成对抗网络是基于深度学习的视盘和视杯分割研究热点.Zilly等人[29]结合熵采样和集成学习来分割眼底图的视盘和视杯:第1步, 全卷积网络输出眼底图每个像素属于视盘、视杯和背景这3个类别的概率, 得到初始的分割图; 第2步, 采用包括图割和凸包变换等一系列技术进一步优化分割图.Sevastopolsky等人[30]改造了U-Net全卷积网络, 大幅度减少了卷积层的过滤器, 使得网络参数规模变小, 节省了网络训练时间, 提升了运行效率, 且分割效果较好.Liu等人[31]首先对眼底图进行极坐标转换; 接着采用层级方式分割视盘和视杯, 增强了位置关系约束, 并且将视盘和视杯分割作为多标签任务; 再使用包含多尺度的M-Net全卷积网络来解决不平衡数据训练的问题, 产生多标签概率分布图; 最后, 将多标签损失函数被用来共同约束视盘和视杯的协同分割.实验表明:采用M-Net结合极坐标转换的方法, 在真实数据集ORIGA上达到了较高的分割准确率.Shankaranarayana等人[34]设计了结合全卷积网络和生成对抗网络的视杯和视杯分割框架.其中, 增加残差模块的全卷积网络是生成器, 用于生成视盘和视杯的分割图; 二分类卷积神经网络作为判别器, 鉴别输入分割图的真假; 通过对抗训练, 判别器引导生成器输出更准确的分割图.Sun等人[32]假设眼底图的视盘和视杯区域均为椭圆形状, 首先根据Faster R-CNN模型[43]同时检测视盘和视杯的矩形区域, 再分别计算矩形的内切椭圆, 最终获得视盘和视杯区域.

上述方法均为监督学习, 依赖大规模的有标注数据来训练网络, 最终获得令人满意的视盘和视杯分割效果.而实际上, 有标注的眼底图数量非常少.

2 CDR-GANs模型

本节介绍一个基于半监督条件生成对抗网络的视盘和视杯两阶段分割模型:CDR-GANs.

2.1 模型框架

CDR-GANs模型框架如图 1所示, 可划分为视盘分割和视杯分割两个阶段, 每个阶段均由语义分割网络、生成器和判别器共同构成一个面向半监督学习的条件生成对抗网络.

Fig. 1 Framework of CDR-GANs 图 1 CDR-GANs模型框架

约定在第i个语义分割阶段中, 眼底图(含有标注的和无标注的)进行预处理后的数据表示为xi, 其中, 有标注的眼底图所对应的(视盘或视杯)分割图进行预处理后的数据记为yi, 则标注样本记为(xi, yi).眼底图预处理操作包括图像裁剪、旋转和CLAHE颜色对比度增强[44]等, 分割图预处理操作则包括图像裁剪、旋转和感兴趣区域提取(即视盘或视杯).在模型训练过程中, Sixi进行分割处理并输出y'i, 构成生成样本(xi, y'i); 而Giyi进行图像转换后输出x'i, 构成另一组生成样本(x'i, yi).标注样本和两组生成样本均作为Di输入被判定真假.经过多次对抗学习后, Di迫使SiGi学习眼底图和(视盘或视杯)分割图的联合分布p(xi, yi).由于有标注和无标注的眼底图均可作为训练样本, 有效缓解了因标注数据过少而导致网络难以训练的问题, 使学习到的联合分布更加逼近真实分布.一旦完成生成对抗网络训练, 可对眼底图进行视盘和视杯分割, 进而计算CDR指标, 作为青光眼早期筛查的重要依据.

2.2 优化目标

CDR-GANs模型的视盘分割阶段和视杯分割阶段的网络框架是相同的, 均是面向半监督学习的条件生成对抗网络, 其优化目标是获得眼底图及其(视盘或视杯)分割图的联合分布.约定在第i个语义分割阶段中, 眼底图及其分割图的联合分布为p(xi, yi), 它可分解为以下两种形式:p(xi, yi)=p(xip(yi|xi)和p(xi, yi)=p(yip(xi|yi).假设从边缘分布p(xi)和p(yi)中采样是容易的, 那么只要能够准确估计条件分布p(yi|xi)和p(xi|yi), 即可计算出联合分布.在网络框架中, 语义分割网络和生成器分别刻画了条件分布p(yi|xi)和p(xi|yi), 判别器通过鉴定输入的眼底图及其分割图配对的真假, 来优化语义分割网络和生成器, 最终学习联合分布p(xi, yi).

面向半监督学习的条件生成对抗网络的框架由语义分割网络、生成器和判别器这3部分组成.在第i个语义分割阶段中, 分别表示为Si, GiDi, 均为参数化的深层神经网络.SiGi分别定义了条件分布psi(yi|xi)≈p(yi|xi)和pgi(xi|yi)≈p(xi|yi).Di的目标是判定输入的眼底图及其分割图配对是否来源于联合分布p(xi, yi).三方相互对抗博弈, 当由SiGi描述的条件分布而构造的联合分布逼近真实的联合分布, 达到纳什平衡.

●    第1步, Si根据条件分布psi(yi|xi), 利用真实的眼底图输入xi~p(xi)来生成分割图y'i.因此, 生成样本(xi, y'i)等价于联合分布psi(xi, yi)=p(xipsi(yi|xi)的抽样.同样地, Gi根据条件分布pgi(xi|yi), 利用真实的分割图输入yi~p(yi)来转换图像生成眼底图x'i.因此, 生成样本(x'i, yi)等价于联合分布pgi(xi, yi)=p(yipgi(xi|yi)的抽样.注意:Si采用半监督学习方式, 允许输入的眼底图同时包括有标注和无标注.

●    第2步, 两组生成样本(xi, y'i)和(x'i, yi)以及真实的标注样本(xi, yi)皆为Di的输入, 进行真假判定.

●    第3步, 对Si, GiDi采用对抗训练.在多次迭代中, SiGi不断提升伪造数据的能力, 试图生成难以分辨的眼底图及其分割图配对以欺骗Di, 而Di也在对抗中不断优化自身对输入样本的真假判断能力.

最后, 当三方达到纳什均衡时, 即获得眼底图及其分割图的联合分布p(xi, yi).

对学习联合分布的三方博弈过程进行抽象, 为此定义V(Si, Gi, Di)损失函数.

$ \left. \begin{align} & V({{S}_{i}}, {{G}_{i}}, {{D}_{i}})={{\mathbb{E}}_{({{x}_{i}}, {{y}_{i}})\tilde{\ }p({{x}_{i}}, {{y}_{i}})}}[\log ({{D}_{i}}({{x}_{i}}, {{y}_{i}}))]+(1-\lambda )\cdot {{\mathbb{E}}_{({{{{x}'}}_{i}}, {{y}_{i}})\tilde{\ }{{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})}}[\log (1-{{D}_{i}}({{{{x}'}}_{i}}, {{y}_{i}}))]+ \\ & \text{ }\lambda \cdot {{\mathbb{E}}_{({{x}_{i}}, {{{{y}'}}_{i}})\tilde{\ }{{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}})}}[\log (1-{{D}_{i}}({{x}_{i}}, {{{{y}'}}_{i}}))] \\ \end{align} \right\} $ (1)

其中, ${{{x}'}_{i}}={{G}_{i}}({{y}_{i}}), {{{y}'}_{i}}={{S}_{i}}({{x}_{i}}) $, λ∈(0, 1)用于描述SiGi在三方博弈中的重要程度.以$ {{\min }_{{{S}_{i}}, {{G}_{i}}}}{{\max }_{{{D}_{i}}}}V({{S}_{i}}, {{G}_{i}}, {{D}_{i}})$为待优化目标函数.当且仅当

$ p({{x}_{i}}, {{y}_{i}})=(1-\lambda )\cdot {{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})+\lambda \cdot {{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}}) $ (2)

minmax达到纳什均衡.然而, 该最优解条件无法保证SiGi学习到眼底图和分割图的联合分布.Li等人指出:引入监督学习的分类损失, 可有效解决该问题[40].此时, 损失函数重定义为V'(Si, Gi, Di).

$ \left. \begin{align} & {V}'({{S}_{i}}, {{G}_{i}}, {{D}_{i}})={{\mathbb{E}}_{({{x}_{i}}, {{y}_{i}})\tilde{\ }p({{x}_{i}}, {{y}_{i}})}}[\log ({{D}_{i}}({{x}_{i}}, {{y}_{i}}))]+(1-\lambda )\cdot {{\mathbb{E}}_{({{{{x}'}}_{i}}, {{y}_{i}})\tilde{\ }{{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})}}[\log (1-{{D}_{i}}({{{{x}'}}_{i}}, {{y}_{i}}))]+ \\ & \text{ }\lambda \cdot {{\mathbb{E}}_{({{x}_{i}}, {{{{y}'}}_{i}})\tilde{\ }{{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}})}}[\log (1-{{D}_{i}}({{x}_{i}}, {{{{y}'}}_{i}}))]+{{\mathbb{E}}_{({{x}_{i}}, {{y}_{i}})\tilde{\ }p({{x}_{i}}, {{y}_{i}})}}[-\log ({{p}_{{{s}_{i}}}}({{y}_{i}}|{{x}_{i}}))] \\ \end{align} \right\} $ (3)

$ {{\min }_{{{S}_{i}}, {{G}_{i}}}}{{\max }_{{{D}_{i}}}}{V}'({{S}_{i}}, {{G}_{i}}, {{D}_{i}})$为优化目标函数.当取得全局最优时,

$ p({{x}_{i}}, {{y}_{i}})={{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})={{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}}) $ (4)

该最优解条件表明, SiGi学习到眼底图和分割图的联合分布.为进一步优化SiGi, 引入伪分类损失, 由Gi根据分割图转换得到的眼底图也作为有标注数据, 辅助Gi训练.V'(Si, Gi, Di)被修改为

$ \left. \begin{align} & {V}'({{S}_{i}}, {{G}_{i}}, {{D}_{i}})={{\mathbb{E}}_{({{x}_{i}}, {{y}_{i}})\tilde{\ }p({{x}_{i}}, {{y}_{i}})}}[\log ({{D}_{i}}({{x}_{i}}, {{y}_{i}}))]+(1-\lambda )\cdot {{\mathbb{E}}_{({{{{x}'}}_{i}}, {{y}_{i}})\tilde{\ }{{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})}}[\log (1-{{D}_{i}}({{{{x}'}}_{i}}, {{y}_{i}}))]+ \\ & \text{ }\lambda \cdot {{\mathbb{E}}_{({{x}_{i}}, {{{{y}'}}_{i}})\tilde{\ }{{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}})}}[\log (1-{{D}_{i}}({{x}_{i}}, {{{{y}'}}_{i}}))]+{{\mathbb{E}}_{({{x}_{i}}, {{y}_{i}})\tilde{\ }p({{x}_{i}}, {{y}_{i}})}}[-\log ({{p}_{{{s}_{i}}}}({{y}_{i}}|{{x}_{i}}))]+ \\ & \text{ }\gamma \cdot {{\mathbb{E}}_{({{{{x}'}}_{i}}, {{y}_{i}})\tilde{\ }{{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})}}[-\log ({{p}_{{{s}_{i}}}}({{y}_{i}}|{{{{x}'}}_{i}}))] \\ \end{align} \right\} $ (5)

其中, γ$ \mathbb{R}$, 用于控制伪分类损失在优化Gi时的贡献程度.为进一步提升SiGi生成图像的质量, 使其更接近真实图像, 额外增加L1损失函数, 最后将V'(Si, Gi, Di)改写为

$ \left. \begin{align} & {V}'({{S}_{i}}, {{G}_{i}}, {{D}_{i}})={{\mathbb{E}}_{({{x}_{i}}, {{y}_{i}})\tilde{\ }p({{x}_{i}}, {{y}_{i}})}}[\log ({{D}_{i}}({{x}_{i}}, {{y}_{i}}))]+(1-\lambda )\cdot {{\mathbb{E}}_{({{{{x}'}}_{i}}, {{y}_{i}})\tilde{\ }{{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})}}[\log (1-{{D}_{i}}({{{{x}'}}_{i}}, {{y}_{i}}))]+ \\ & \text{ }\lambda \cdot {{\mathbb{E}}_{({{x}_{i}}, {{{{y}'}}_{i}})\tilde{\ }{{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}})}}[\log (1-{{D}_{i}}({{x}_{i}}, {{{{y}'}}_{i}}))]+{{\mathbb{E}}_{({{x}_{i}}, {{y}_{i}})\tilde{\ }p({{x}_{i}}, {{y}_{i}})}}[-\log ({{p}_{{{s}_{i}}}}({{y}_{i}}|{{x}_{i}}))]+ \\ & \text{ }\gamma \cdot {{\mathbb{E}}_{({{{{x}'}}_{i}}, {{y}_{i}})\tilde{\ }{{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})}}[-\log ({{p}_{{{s}_{i}}}}({{y}_{i}}|{{{{x}'}}_{i}}))]+\mu \cdot {{\mathbb{E}}_{({{x}_{i}}, {{{{y}'}}_{i}})\tilde{\ }{{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}})}}||{{{{y}'}}_{i}}-{{y}_{i}}||+\mu \cdot {{\mathbb{E}}_{({{{{x}'}}_{i}}, {{y}_{i}})\tilde{\ }{{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})}}||{{{{x}'}}_{i}}-{{x}_{i}}|| \\ \end{align} \right\} $ (6)

其中, ||·||为L1损失函数, μ$ \mathbb{R}$表示其重要程度.

2.3 理论分析

为进一步阐述CDR-GANs模型, 接下来展开理论分析.首先分析给定任意语义分割网络和生成器, 判别器的最优输出; 然后分析给定最优判别器, 语义分割网络和生成器的取得最优的条件及解.

命题1.给定任意SiGi, 根据损失函数V(Si, Gi, Di), 则最优判别器输出值$ D_{i}^{*}({{x}_{i}}, {{y}_{i}})$

$ D_{i}^{*}({{x}_{i}}, {{y}_{i}})=\frac{p({{x}_{i}}, {{y}_{i}})}{p({{x}_{i}}, {{y}_{i}})+{{p}_{\lambda }}({{x}_{i}}, {{y}_{i}})} $ (7)

其中, $ {{p}_{\lambda }}({{x}_{i}}, {{y}_{i}})=(1-\lambda ){{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})+\lambda {{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}}).$

证明:该证明可参考GANs[35].

命题2.给定$ D_{i}^{*}({{x}_{i}}, {{y}_{i}})$, 以V(Si, Gi, Di)的minmax形式为优化目标, 当且仅当p(xi, yi)=pλ(xi, yi), 此时$ D_{i}^{*}({{x}_{i}}, {{y}_{i}})$= 0.5, 最优解(即函数最小值)为-2log2.

证明:给定$ D_{i}^{*}({{x}_{i}}, {{y}_{i}})$, 则以V(Si, Gi, Di)的minmax形式为待优化函数, 可修改为

$ \left. \begin{align} & C({{S}_{i}}, {{G}_{i}})={{\max }_{{{D}_{i}}}}V({{S}_{i}}, {{G}_{i}}, {{D}_{i}}) \\ & \text{ }={{\mathbb{E}}_{({{x}_{i}}, {{y}_{i}})\tilde{\ }p({{x}_{i}}, {{y}_{i}})}}\left[ \log \left( \frac{p({{x}_{i}}, {{y}_{i}})}{p({{x}_{i}}, {{y}_{i}})+{{p}_{\lambda }}({{x}_{i}}, {{y}_{i}})} \right) \right]+{{\mathbb{E}}_{({{x}_{i}}, {{y}_{i}})\tilde{\ }{{p}_{\lambda }}({{x}_{i}}, {{y}_{i}})}}\left[ \log \left( \frac{{{p}_{\lambda }}({{x}_{i}}, {{y}_{i}})}{p({{x}_{i}}, {{y}_{i}})+{{p}_{\lambda }}({{x}_{i}}, {{y}_{i}})} \right) \right] \\ \end{align} \right\} $ (8)

注意:

$ C({{S}_{i}}, {{G}_{i}})=KL\left( p({{x}_{i}}, {{y}_{i}})\left\| \frac{p({{x}_{i}}, {{y}_{i}})+{{p}_{\lambda }}({{x}_{i}}, {{y}_{i}})}{2} \right. \right)+KL\left( {{p}_{\lambda }}({{x}_{i}}, {{y}_{i}})\left\| \frac{p({{x}_{i}}, {{y}_{i}})+{{p}_{\lambda }}({{x}_{i}}, {{y}_{i}})}{2} \right. \right)-2\log 2 $ (9)

因此,

$ C\left( {{S}_{i}}, {{G}_{i}} \right)=2\cdot JSD(p\left( {{x}_{i}}, {{y}_{i}} \right), {{p}_{\lambda }}\left( {{x}_{i}}, {{y}_{i}} \right))-2\text{log}2\ge -2\text{log}2 $ (10)

显然, 散度JSD(·)总是非负的, 因此对于$ {{\min }_{{{S}_{i}}, {{G}_{i}}}}C({{S}_{i}}, {{G}_{i}})$, 其全局最小值即为-2log2.当且仅当p(xi, yi)=pλ(xi, yi), $ {{\min }_{{{S}_{i}}, {{G}_{i}}}}C({{S}_{i}}, {{G}_{i}})$取得最优解.

然而, 该最优解条件无法保证SiGi学习到眼底图和分割图的联合分布, 即$ p({{x}_{i}}, {{y}_{i}})={{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})={{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}})$.为此, 引入监督学习的分类损失以及L1损失来修改优化目标.

定理1.给定$ D_{i}^{*}({{x}_{i}}, {{y}_{i}})$, 以V'(Si, Gi, Di)的minmax形式为优化目标, 当且仅当 $ p({{x}_{i}},{{y}_{i}})={{p}_{{{g}_{i}}}}({{x}_{i}},{{y}_{i}})={{p}_{{{s}_{i}}}}({{x}_{i}},{{y}_{i}})$, 此时$ D_{i}^{*}({{x}_{i}}, {{y}_{i}})=0.5$, 最优解(即函数最小值)为-2log2.

证明:易知

$ {{\mathbb{E}}_{({{x}_{i}}, {{y}_{i}})\tilde{\ }p({{x}_{i}}, {{y}_{i}})}}[-\log ({{p}_{{{s}_{i}}}}({{y}_{i}}|{{x}_{i}}))]=const+KL(p({{x}_{i}}, {{y}_{i}})\parallel {{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}})) $ (11)

$ {{\mathbb{E}}_{({{{{x}'}}_{i}}, {{y}_{i}})\tilde{\ }{{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})}}[-\log ({{p}_{{{s}_{i}}}}({{y}_{i}}|{{{x}'}_{i}}))]=const+KL({{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})\parallel {{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}})) $ (12)

给定$ D_{i}^{*}({{x}_{i}}, {{y}_{i}})$, 则以V'(Si, Gi, Di)的minmax形式为待优化函数, 可修改为

$ \left. \begin{align} & {C}'({{S}_{i}}, {{G}_{i}})={{\max }_{{{D}_{i}}}}{V}'({{S}_{i}}, {{G}_{i}}, {{D}_{i}}) \\ & \text{ }=2\cdot JSD(p({{x}_{i}}, {{y}_{i}}), {{p}_{\lambda }}({{x}_{i}}, {{y}_{i}}))+KL(p({{x}_{i}}, {{y}_{i}})\parallel {{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}}))+KL({{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})\parallel {{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}}))+const-2\log 2 \\ & \text{ }\ge -2\log 2 \\ \end{align} \right\} $ (13)

因为散度JSD(·)和Kullback-Leibler距离KL(·)总是非负的, 所以对于$ {{\min }_{{{S}_{i}}, {{G}_{i}}}}{C}'({{S}_{i}}, {{G}_{i}})$, 其全局最小值即为-2log2.当且仅当$ p({{x}_{i}}, {{y}_{i}})={{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})={{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}}), {{\min }_{{{S}_{i}}, {{G}_{i}}}}{C}'({{S}_{i}}, {{G}_{i}})$, 取得最优解.

由上述理论分析可知:CDR-GANs模型中, 每个分割阶段的语义分割网络、生成器和判别器三方博弈, 达到纳什均衡时, 语义分割网络和生成器也学习到眼底图及其分割图的联合分布.

2.4 训练过程

CDR-GANs模型的详细训练过程如算法1所示.

算法1. CDR-GANs模型的训练过程.

输入:预处理后的有标注眼底图及其分割图, 以及预处理后的无标注眼底图.

输出:CDR-GANs模型两个阶段的语义分割网络、生成器和判别器的网络参数.

(1)     for i=1 to 2 do

(2)         初始化判别器Di的参数:$ {{\theta }_{{{d}_{i}}}}.$

(3)         初始化语义分割网络Si的参数: $ {{\theta }_{{{s}_{i}}}}.$

(4)         初始化生成器Gi的参数:$ {{\theta }_{{{g}_{i}}}}.$

(5)             repeat

(6)                     批量采样 $ {{n}_{{{d}_{i}}}}$个标注样本:(xi, yi)~p(xi, yi).

(7)                     批量采样nsi个眼底图样本: xi~p(xi), 利用Si生成分割图$ {{{y}'}_{i}}\tilde{\ }{{p}_{{{s}_{i}}}}({{y}_{i}}|{{x}_{i}})$.注意, 眼底图样本同时包括有标注和无标注.

(8)                     批量采样ngi个分割图样本:yi~p(yi), 利用Gi转换生成眼底图$ {{{x}'}_{i}}\tilde{\ }{{p}_{{{g}_{i}}}}({{x}_{i}}|{{y}_{i}}).$

(9)                     采用随机梯度上升法更新Di的参数: $ \begin{align} & {{L}_{{{d}_{i}}}}=\frac{1}{{{n}_{{{d}_{i}}}}}\sum\limits_{({{x}_{i}}, {{y}_{i}})}{\log ({{D}_{i}}({{x}_{i}}, {{y}_{i}}))}+\frac{1-\lambda }{{{n}_{{{g}_{i}}}}}\sum\limits_{({{{{x}'}}_{i}}, {{y}_{i}})}{\log (1-{{D}_{i}}({{{{x}'}}_{i}}, {{y}_{i}}))}+\frac{\lambda }{{{n}_{{{s}_{i}}}}}\sum\limits_{({{x}_{i}}, {{{{y}'}}_{i}})}{\log (1-{{D}_{i}}({{x}_{i}}, {{{{y}'}}_{i}}))}, \\ & {{\theta }_{{{d}_{i}}}}={{\theta }_{{{d}_{i}}}}+{{\nabla }_{{{\theta }_{{{d}_{i}}}}}}{{L}_{{{d}_{i}}}}. \\ \end{align}$

(10)                     采用随机梯度下降法更新Si的参数: $ \begin{align} & {{L}_{{{s}_{i}}}}=\frac{\lambda }{{{n}_{{{s}_{i}}}}}\sum\limits_{({{x}_{i}}, {{{{y}'}}_{i}})}{\log (1-{{D}_{i}}({{x}_{i}}, {{{{y}'}}_{i}}))}+{{\mathbb{E}}_{({{x}_{i}}, {{y}_{i}})\tilde{\ }p({{x}_{i}}, {{y}_{i}})}}[-\log ({{p}_{{{s}_{i}}}}({{y}_{i}}|{{x}_{i}}))]+\mu {{\mathbb{E}}_{({{x}_{i}}, {{{{y}'}}_{i}})\tilde{\ }{{p}_{{{s}_{i}}}}({{x}_{i}}, {{y}_{i}})}}||{{{{y}'}}_{i}}-{{y}_{i}}||, \\ & {{\theta }_{{{s}_{i}}}}={{\theta }_{{{s}_{i}}}}-{{\nabla }_{{{\theta }_{{{s}_{i}}}}}}{{L}_{{{s}_{i}}}}. \\ \end{align}$

(11)                     采用随机梯度下降法更新Gi的参数: $ \begin{align} & {{L}_{{{g}_{i}}}}=\frac{1-\lambda }{{{n}_{{{g}_{i}}}}}\sum\limits_{({{{{x}'}}_{i}}, {{y}_{i}})}{\log (1-{{D}_{i}}({{{{x}'}}_{i}}, {{y}_{i}}))}+\gamma {{\mathbb{E}}_{({{{{x}'}}_{i}}, {{y}_{i}})\tilde{\ }{{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})}}[-\log ({{p}_{{{s}_{i}}}}({{y}_{i}}|{{{{x}'}}_{i}}))]+\mu {{\mathbb{E}}_{({{{{x}'}}_{i}}, {{y}_{i}})\tilde{\ }{{p}_{{{g}_{i}}}}({{x}_{i}}, {{y}_{i}})}}||{{{{x}'}}_{i}}-{{x}_{i}}||, \\ & {{\theta }_{{{g}_{i}}}}={{\theta }_{{{g}_{i}}}}-{{\nabla }_{{{\theta }_{{{g}_{i}}}}}}{{L}_{{{g}_{i}}}}. \\ \end{align}$

(12)                 until 收敛

(13)             输出$ {{\theta }_{{{d}_{i}}}}, {{\theta }_{{{s}_{i}}}}, {{\theta }_{{{g}_{i}}}}.$

(14) end for

2.5 模型实现

语义分割网络采用全卷积网络FCNs[16], 它根据给定输入大小为256x256的眼底图, 生成对应分割图.生成器和判别器的网络架构参考表 1表 2.使用符号说明如下:CONV表示卷积操作, DECONV是转置卷积操作, IN为输入通道数, OUT为输出通道数, K是卷积核尺寸, S代表滑动步长, P为边沿填充大小, BN则是批量规范化操作.生成器是具有残差结构的卷积神经网络, 深度达到62层, 由下采样、残差模块和上采样这3部分构成, 可将大小为256x256的分割图作为输入, 转换生成相应的眼底图.其中, 残差结构迭代次数根据实际场景设置.

Table 1 Generator network architecture 表 1 生成器网络架构

Table 2 Discriminator network architecture 表 2 判别器网络架构

●    下采样也叫池化, 目的在于保留主要特征的同时减少参数和计算量, 以及保持目标平移、旋转和尺度等不变性.

●    残差模块使深层网络变得容易训练与优化.

●    上采样是利用分割图的不同深度的特征, 以生成高分辨率眼底图.

生成器中间层的激活函数选择ReLU, 因其具有分段线性性质, 更容易计算梯度, 且能避免Tanh等函数的梯度在饱和区域消失的问题, 而最后输出层的激活函数选择Tanh而非ReLU, 主要考虑Tanh具有更好的输出表达能力, 使得生成眼底图更为逼真.判别器是深度为12层的卷积神经网络, 以眼底图及其分割图的数据对作为输入, 最后一层输出概率值判断真假(接近1, 则为真; 接近0, 则为假).激活函数采用LeakyReLU(参数negative_ slope=0.01)替换ReLU[45], 当输入为负值时, 赋予较小的非零梯度值, 避免出现神经元无法激活的问题.

3 实验分析与讨论

本节通过实验评估CDR-GANs模型的有效性.实验数据集为真实眼底图及其分割图数据集ORIGA[46], 实验指标主要是均交并比、CDR绝对误差[31]和实际分割效果.

3.1 数据集

真实数据集ORIGA是评估眼底图的视盘和视杯分割的权威数据集, 总共包含650张眼底图及其视盘和视杯的分割图, 其中168张为青光眼, 其余482张为正常眼.所有的分割图均由受训的专业医生人工标注.实验过程中, 选取其中550张(包括117张青光眼)作为训练数据集, 剩下的100张(包括51张青光眼)作为测试数据集.对数据集的样本进行预处理, 选取感兴趣区域并缩放尺寸至256x256, 眼底图额外增加CLAHE图像增强, 分割图则根据实际情况来提取视盘或视杯信息.

由于CDR-GANs模型属于半监督学习, 可同时处理有标注和无标注数据集, 因此加入真实数据集RIM- ONE[47]和DRISHTI-GS[48], 其眼底图数量分别是159和50, 作为半监督学习过程中的无标注数据集.

3.2 对比模型

本文选取R-Bend[11]和ASM[9]等传统方法以及U-Net[30], U-Net-GANs[34], Faster R-CNN[32]和M-Net[31]等深度学习模型作为对比, 各个对比方法的关键参数具体可参考原论文.为充分讨论半监督学习和两阶段分割设计的有效性, 本文实现CDR-GANs(supervised)和CDR-GANs(joint)两个版本.其中, CDR-GANs(supervised)仅利用标注数据, 属于监督学习; 而CDR-GANs(joint)也属于监督学习, 对视盘和视杯同时分割, 并不将它们拆分成两个独立的分割阶段.CDR-GANs模型采用Adam替代传统随机梯度下降SGD来优化网络, 参数设置如下.

●    学习率或步长因子α=0.0002, 用于控制权重的更新比率, 较小的值通常会令训练收敛到更好的性能.

●    一阶矩估计的指数衰减率β1=0.5.

●    二阶矩估计的指数衰减率β2=0.999, 通常接近1的数值适合稀疏梯度场景.

实验平台的操作系统是Ubuntu 16.04 LTS, 图像处理器为GeForce GTX 1080 Ti, 内存容量16GB.编码实现采用Python语言, 基于Pytorch框架.

3.3 均交并比分析

均交并比是图像分割中衡量算法精度的标准度量.MIoU值越大, 表示分割精度越高.计算MIoU的方法是预测区域和实际区域交集除以预测区域和实际区域的并集, 公式如下:

$ MIoU=\frac{1}{k+1}\sum\limits_{i=0}^{k}{\frac{{{p}_{ii}}}{\sum\nolimits_{j=0}^{k}{{{p}_{ij}}}+\sum\nolimits_{j=0}^{k}{{{p}_{ji}}}-{{p}_{ii}}}} $ (14)

其中, k+1表示类别总数(包括背景), puv指的是将真实类别为u的像素点预测为类别v的数量.

表 3给出CDR-GANs模型与对比模型在ORIGA数据集上的MIoU指标表现情况.

Table 3 Comparison of MIoU values for CDR-GANs and different models on ORIGA dataset 表 3 CDR-GANs与其他模型在ORIGA数据集上的MIoU值对比

传统方法R-Bend和ASM的视盘和视杯MIoU指标不如深度学习模型.对比各个深度学习模型.

●     U-Net各项MIoU指标的表现较差, 因在眼底图的视盘和视杯分割任务中, 标注数据不足, 简单地调整全卷积网络结构, 难以取得令人满意的效果.

●     M-Net各项MIoU指标比U-Net更好, 主要得益于精巧的全卷积网络设计以及适合眼底图数据的极坐标转换方法.

●     U-Net-GANs除了改进全卷积网络设计, 还引入生成对抗网络架构来优化分割图, 取得了比M-Net更优的MIoU值.

●     Faster R-CNN认为眼底图的视盘和视杯区域均为椭圆形状, 与真实标注并不完全吻合, 导致其各项MIoU指标的表现最差.

●     CDR-GANs模型(包括supervised和joint版本)各项MIoU标明显优于现有模型, 特别是基于半监督学习的两阶段分割模型CDR-GANs, 其视盘MIoU、视杯MIoU和总体MIoU分别为0.953, 0.7870.856, 均是目前最优结果.

通过与CDR-GANs(supervised)比较, 发现半监督学习在眼底图的视盘和视杯分割任务中的重要性, 它能有效解决标注样本不足的难题, 有助于提升分割精度; 而对比CDR-GANs和CDR-GANs(joint).可见, 将眼底图的视盘和视杯分割任务拆分为两阶段, 明显降低分割任务的难度, 从而改善视盘分割和视杯分割的效果.

3.4 CDR绝对误差分析

CDR是青光眼早期筛查和临床诊断主要依据.CDR的计算, 依赖准确分割眼底图的视盘和视杯.本文采用CDR绝对误差δE指标衡量模型计算出来的CDR与真实的CDR两者之间绝对误差的平均水平.δE越小, 表明模型得到的CDR值越接近真实的CDR, 作为青光眼早期筛查和临床诊断依据的可信度越高.具体计算公式如下.

$ {{\delta }_{E}}=\frac{1}{N}\sum\limits_{i=1}^{N}{|CD{{R}_{A}}-CD{{R}_{B}}|} $ (15)

其中, N为数据集大小, CDRACDRB分别表示根据模型视盘和视杯分割图而得到的CDR与真实的CDR.

表 4展示了CDR-GANs模型与对比模型在ORIGA数据集上的δE指标表现情况.

Table 4 Comparison of dE values for CDR-GANs and different models on ORIGA dataset 表 4 CDR-GANs与其他模型在ORIGA数据集上的dE值对比

传统方法R-Bend和ASM在δE指标上表现明显不如深度学习模型, 特别是R-Bend, 其δE最大, 达到0.154.对比各个深度学习模型, U-Net的δE指标的表现较差, 只依靠全卷积网络结构的调整, 无法获得准确的CDR值, 难以指导青光眼筛查和诊断.M-Net的δE值为0.0908, 是所有模型中最差的, 精巧的网络结构和极坐标转换, 在一定程度上提升了MIoU指标, 但过于复杂的全卷积网络结构导致难以训练, 分割的视盘和视杯在形状上偏差较大.U-Net-GANs的δE优于U-Net和M-Net, 说明结合全卷积网络和生成对抗网络能够得到更准确的视盘和视杯分割结果.Faster R-CNN假设眼底图的视盘和视杯区域均为椭圆形状, 将分割问题转换为目标检测, 但该假设过于严格, 导致其δE指标的表现不如其他深度学习模型.CDR-GANs模型(包括supervised)的δE指标均优于现有模型, 特别是基于半监督学习的两阶段分割模型CDR-GANs, 其δE最小, 为0.063 1, 表明根据该模型计算得到的CDR值与真实值十分接近, 用作青光眼筛查和诊断的可信度非常高.CDR-GANs(joint)的表现比CDR-GANs (supervised)差, 甚至不如设计简单的U-Net-GANs.可见, 同时识别视盘和视杯增大了分割难度; 另一方面, 复杂的网络结构设计增加了训练难度.CDR-GANs(supervised)比CDR-GANs略差, 再次说明半监督学习在眼底图的视盘和视杯分割任务中的重要性, 复杂的网络结构更需要大量训练样本, 而有标注的眼底图数据十分有限, 半监督学习可同时利用有标注和无标注数据, 在一定程度提升了分割精度, 帮助计算出更准确的CDR指标.

3.5 实际分割效果分析

视盘和视杯分割结果可视化, 能直观比较CDR-GANs模型与其他深度学习对比模型的分割效果, 具体参考图 2.该图选取10张眼底图(即第1列)及其真实的分割图(即第2列), 并给出CDR-GANs模型(包括supervised和joint版本)与对比模型根据这些眼底图所输出的分割图情况.其中, 前6行的眼底图为正常眼, 而剩下的皆为青光眼.总的来说, CDR-GANs模型分割结果与真实分割图接近, 视盘与视杯边缘光滑, 形状偏圆, 符合真实情况; 而其他对比模型分割图的形状变化较大, 边缘锯齿现象明显, 分割效果不理想.少数情况下, U-Net可能出现违反常识的错误分割, 比如针对第2行的眼底图, 其分割图的视杯甚至在视盘区域外面.U-Net-GANs容易出现把背景错误归类为视杯的情形, 比如分割第1行和第4行的眼底图时, 原本是背景的像素被预测为视盘.M-Net在视杯分割上效果较差, 倾向识别出形状各异的视杯, 具体例子可见第4行和最后一行的眼底图对应的分割图.Faster R-CNN根据其眼底图的视盘和视杯区域均为椭圆形状的假设, 能够获得完整且边缘光滑的视盘和视杯, 但识别准确度不理想.比如在第6行和第7行的眼底图中, 原本是偏圆形状的视杯被简化为椭圆形状, 与真实分割差异较大.另外, 当把CDR-GANs模型与CDR-GANs(supervised), CDR-GANs(joint)对比时可以发现:前者识别的视盘和视杯形状上更为接近圆形, 边缘更光滑, 比如第4行的分割效果图, 说明半监督学习和两阶段分割设计是改善最终分割效果的有效方法.

Fig. 2 Optic disc and cup segmentation performances of different deep learning models on ORIGA dataset 图 2 不同深度学习模型在ORIGA数据集上的视盘和视杯分割效果

3.6 CDR-GANs模型的判别器激活函数讨论

CDR-GANs模型的判别器使用leakyReLU而不是ReLU作为激活函数, 主要是考虑当输入为负值时, ReLU输出始终为0, 其一阶导数也为0, 导致神经元不能更新参数; 而leakyReLU能够赋予较小的非零梯度值, 避免出现神经元无法激活的问题.本文将CDR-GANs模型中的判别器激活函数替换为ReLU, 设计了CDR-GANs (ReLU), 并与CDR-GANs模型进行对比实验.表 5展示了CDR-GANs(ReLU)与CDR-GANs模型在ORIGA数据集上的MIoU指标表现情况.实验结果表明, 两者性能接近.因此, 选择leakyReLU或ReLU作为判别器的激活函数, 实际上对模型性能并无显著影响.

Table 5 Comparison of MIoU values for CDR-GANs (ReLU) and CDR-GANs on ORIGA dataset 表 5 CDR-GANs(ReLU)与CDR-GANs模型在ORIGA数据集上的MIoU值对比

3.7 CDR-GANs模型的生成器作用讨论

CDR-GANs模型的视盘分割阶段和视杯分割阶段的网络框架是相同的, 均是面向半监督学习的条件生成对抗网络, 由语义分割网络、生成器和判别器这3部分组成, 其优化目标是获得眼底图及其(视盘或视杯)分割图的联合分布.在第i个语义分割阶段中, SiGi分别定义了条件分布psi(yixi)≈p(yixi)和pgi(xiyi)≈p(xiyi).在模型训练中, Sixi进行分割处理并输出y'i, 构成生成样本(xi, y'i); 而Giyi进行图像转换后输出x'i, 构成另一组生成样本(x'i, yi).标注样本(xi, yi)和两组生成样本均作为Di输入被判定真假.经过多次对抗学习后, Di迫使SiGi学习眼底图和(视盘或视杯)分割图的联合分布p(xi, yi).可见, 生成器是整个模型中不可或缺的组成部分, 它贡献了一组生成样本, 在训对抗学习中, 有助于更好地学习联合分布.如果只使用语义分割网络和判别器来构成生成对抗模型, 目标也是学习联合分布, 那么训练样本将明显减少, 影响模型性能.

本文将CDR-GANs模型中的生成器剔除, 得到简化版本的CDR-GANs(no generator), 并与CDR-GANs模型进行对比实验.表 6展示了CDR-GANs(no generator)与CDR-GANs模型在ORIGA数据集上的性能对比情况.实验结果表明:CDR-GANs模型相比CDR-GANs(no generator), MIoU各项指标与δE指标均略有优势.

Table 6 Model performance comparison of CDR-GANs (no generator) and CDR-GANs on ORIGA dataset 表 6 CDR-GANs(no generator)与CDR-GANs模型在ORIGA数据集上的性能对比

3.8 CDR-GANs模型的半监督学习作用讨论

CDR-GANs模型的性能略优于CDR-GANs(supervised), 原因在于复杂的网络结构更需要大量训练样本, 而有标注的眼底图数据十分有限, 半监督学习可同时利用有标注和无标注数据, 在一定程度提升了分割精度, 并计算出更准确的CDR指标.为了更进一步探讨半监督学习在CDR-GANs模型中的作用, 本文删减部分无标签数据, 得到CDR-GANs(less unlabeled data), 并与CDR-GANs模型进行对比实验.

表 7展示了CDR-GANs(less unlabeled data)与CDR-GANs模型在ORIGA数据集上的性能对比情况.实验结果表明:CDR-GANs模型相比CDR-GANs(less unlabeled data), 不管是在总体MIoU还是δE指标上, 均有一定的提升.综上, 半监督学习有利于提升CDR-GANs模型的性能, 且引入相关的无标签数据越多, 性能提升通常越大.

Table 7 Model performance comparison of CDR-GANs (less unlabeled data) and CDR-GANs on ORIGA dataset 表 7 CDR-GANs(less unlabeled data)模型与CDR-GANs模型在ORIGA数据集上的性能对比

4 结论

本文针对眼底图的视盘和视杯分割问题, 结合半监督学习和生成对抗网络, 提出一个基于半监督条件生成对抗网络的两阶段分割模型CDR-GANs.为了优化CDR-GANs模型, 设计一个合理的优化目标, 并给出理论分析和详细证明.大量真实数据集的实验结果表明:CDR-GANs在均交并比、CDR绝对误差和实际分割效果等指标上, 明显优于现有模型, 可为青光眼早期筛查提供技术支持.

考虑到视杯分割的难度远大于视盘分割, 后续的研究工作将侧重提升视杯分割结果的网络结构设计, 使得CDR-GANs模型能更有效地辅助青光眼早期筛查和临床诊断.另一方面, CDR-GANs模型具有可扩展性, 将其改造应用于眼底图血管分割等, 也是今后的研究重点.

参考文献
[1]
Schacknow PN, Samples JR. The Glaucoma Book:A Practical, Evidence-Based Approach to Patient Care. New York: Springer-Verlag, 2010: 1-64.
[2]
Quigley HA, Broman AT. The number of people with glaucoma worldwide in 2010 and 2020. British Journal of Ophthalmology, 2006, 90(3): 262-267. [doi:10.1136/bjo.2005.081224]
[3]
Murthi A, Madheswaran M. Enhancement of optic cup to disc ratio detection in glaucoma diagnosis. In:Proc. of the Int'l Conf. on Computer Communication and Informatics. Washington:IEEE Computer Society, 2012, 1-5. [doi:10.1109/ICCCI.2012.6158789]
[4]
Zheng GY, Liu XB, Han GH. Survey on medical image computer aided detection and diagnosis systems. Ruan Jian Xue Bao/Journal of Software, 2018, 29(5): 1471-1514(in Chinese with English abstract). http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?flag=1&file_no=5519&journal_id=jos [doi:10.13328/j.cnki.jos.005519]
[5]
Shi X, Chen JH, Li HS, Yin Y, Li DW. Synchronous segmentation and registration method based on narrow band of interest and its application to IGRT system. Acta Automatica Sinica, 2015, 41(9): 1589-1600(in Chinese with English abstract). [doi:10.16383/j.aas.2015.c140871]
[6]
Sun WY, Dong EQ, Cao ZL, Zheng Q. A robust local segmentation method based on fuzzy-energy based active contour. Acta Automatica Sinica, 2017, 43(4): 611-621(in Chinese with English abstract). [doi:10.16383/j.aas.2017.c160260]
[7]
Aquino A, Gegundez AME, Marin D. Detecting the optic disc boundary in digital fundus images using morphological, edge detection, and feature extraction techniques. IEEE Trans. on Medical Imaging, 2010, 29(11): 1860-1869. [doi:10.1109/TMI.2010.2053042]
[8]
Tan NM, Liu J, Wong DWK, Yin F, Lim JH, Wong TY. Mixture model-based approach for optic cup segmentation. In:Proc. of the Engineering in Medicine and Biology Society., 2010, 4817-4820. [doi:10.1109/IEMBS.2010.5627901]
[9]
Yin F, Liu J, Ong SH, Sun Y, Wong DW, Tan NM, Cheung C, Baskaran M, Aung T, Wong TY. Model-based optic nerve head segmentation on retinal fundus images. In:Proc. of the Int'l Conf. of the IEEE Engineering in Medicine and Biology Society. Washington:IEEE Computer Society, 2011, 2626-2629. [doi:10.1109/IEMBS.2011.6090724]
[10]
Geetharamani R, Dhanapackiam C. Automatic localization and segmentation of optic disc in retinal fundus images through image processing techniques. In:Proc. of the Int'l Conf. on Recent Trends in Information Technology. Washington:IEEE Computer Society, 2014, 1-5. [doi:10.1109/ICRTIT.2014.6996090]
[11]
Joshi GD, Sivaswamy J, Krishnadas SR. Optic disk and cup segmentation from monocular color retinal images for glaucoma assessment. IEEE Trans. on Medical Imaging, 2011, 30(6): 1192-1205. [doi:10.1109/TMI.2011.2106509]
[12]
Yin FS, Liu J, Wong DWK, Tan NM. Automated segmentation of optic disc and optic cup in fundus images for glaucoma diagnosis. In:Proc. of the 25th Int'l Symp. on Computer-based Medical Systems. Washington:IEEE Computer Society, 2012, 1-6. [doi:10.1109/CBMS.2012.6266344]
[13]
Zheng YJ, Stambolian D, O'Brien J, Gee C. Optic disc and cup segmentation from color fundus photograph using graph cut with priors. In:Proc. of the 16th Int'l Conf. on Medical Image Computing and Computer-Assisted Intervention. Berlin, Heidelberg:Springer-Verlag, 2013, 75-82. [doi:10.1007/978-3-642-40763-5_10]
[14]
Damon W, Liu J, Meng TN, Yin FS, Yin WT. Automatic detection of the optic cup using vessel kinking in digital retinal fundus images. In:Proc. of the 9th IEEE Int'l Symp. on Biomedical Imaging. Washington:IEEE Computer Society, 2012, 1647-1650. [doi:10.1109/ISBI.2012.6235893]
[15]
Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks. In:Proc. of the Int'l Conf. on Neural Information Processing Systems. New York:Curran Associates Inc., 2012, 1097-1105. [doi:10.1145/3065386]
[16]
Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651. [doi:10.1109/TPAMI.2016.2572683]
[17]
Zhou FY, Jin LP, Dong J. Review of convolutional neural network. Chinese Journal of Computers, 2018, 40(6): 1229-1251(in Chinese with English abstract). [doi:10.11897/SP.J.1016.2017.01229]
[18]
Yu CQ, Wang JB, Peng C, Gao CX, Yu G, Sang N. Learning a discriminative feature network for semantic segmentation. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. Washington:IEEE Computer Society, 2018, 1857-1866. [doi:10.1109/CVPR.2018.00199]
[19]
Pang H, Wang C. Deep learning model for diabetic retinopathy detection. Ruan Jian Xue Bao/Journal of Software, 2017, 28(11): 3018-3029(in Chinese with English abstract). http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?flag=1&file_no=5332&journal_id=jos [doi:10.13328/j.cnki.jos.005332]
[20]
Gulshan V, Peng L, Coram M, Stumpe MC, Wu D, Narayanaswamy A, Venugopalan S, Widner K, Madams T, Cuadros J. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs. Journal of the American Medical Association, 2016, 316(22): 2402-2410. [doi:10.1001/jama.2016.17216]
[21]
Liskowski P, Krawiec K. Segmenting retinal blood vessels with deep neural networks. IEEE Trans. on Medical Imaging, 2016, 35(11): 2369-2380. [doi:10.1109/TMI.2016.2546227]
[22]
Gao YH, Budak Ü, Şengür A. A novel retinal vessel detection approach based on multiple deep convolution neural networks. Computer Methods and Programs in Biomedicine, 2018, 167: 43-48. [doi:10.1016/j.cmpb.2018.10.021]
[23]
Jiang ZX, Zhang H, Wang Y, Ko SB. Retinal blood vessel segmentation using fully convolutional network with transfer learning. Computerized Medical Imaging and Graphics, 2018, 68: 1-15. [doi:10.1016/j.compmedimag.2018.04.005]
[24]
Long EP, Lin HT, Liu ZZ, Wu XH, Wang LM, Jiang JW, An YY, Lin ZL, Li XY, Chen JJ. An artificial intelligence platform for the multihospital collaborative management of congenital cataracts. Nature Biomedical Engineering, 2017, 1(2): Article No.0024. https://www.nature.com/articles/s41551-016-0024?WT.mc_id=GOP_NBME_1701_AICATERACTS_PORTFOLIO
[25]
Lin ZW, Guo RQ, Wang YJ, Wu B, Chen TT, Wang WZ, Chen DZ, Wu J. A framework for identifying diabetic retinopathy based on anti-noise detection and attention-based fusion. In:Proc. of the 21st Int'l Conf. on Medical Image Computing and Computer-Assisted Intervention. Berlin, Heidelberg:Springer-Verlag, 2018, 74-82. [doi:10.1007/978-3-030-00934-2_9]
[26]
Chai YD, He L, Mei QY, Liu HY, Xu L. Deep learning through two-branch convolutional neural network for glaucoma diagnosis. In:Proc. of the Int'l Conf. on Smart Health. Cham:Springer Int'l Publishing, 2017, 191-201. [doi:10.1007/978-3-319-67964-8_19]
[27]
Fu HZ, Xu YW, Lin SH, Wong DWK, Mani B, Mahesh M, Aung T, Liu J. Multicontext deep network for angle-closure glaucoma screening in anterior segment oct. In:Proc. of the Int'l Conf. on Medical Image Computing and Computer Assisted Intervention. Berlin, Heidelberg:Springer-Verlag, 2018, 356-363. [doi:10.1007/978-3-030-00934-2_40]
[28]
Fu HZ, Cheng J, Xu YW, Zhang CQ, Cao XC. Disc-aware ensemble network for glaucoma screening from fundus image. IEEE Trans. on Medical Imaging, 2018, 37(11): 2493-2501. [doi:10.1109/TMI.2018.2837012]
[29]
Zilly J, Buhmann M, Mahapatra D. Glaucoma detection using entropy sampling and ensemble learning for automatic optic cup and disc segmentation. Computerized Medical Imaging and Graphics, 2016, 55: 28-41. [doi:10.1016/j.compmedimag.2016.07.012]
[30]
Sevastopolsky A. Optic disc and cup segmentation methods for glaucoma detection with modification of u-net convolutional neural network. Pattern Recognition and Image Analysis, 2017, 27(3): 618-624. [doi:10.1134/S1054661817030269]
[31]
Fu HZ, Cheng J, Xu YW, Wong DWK, Liu J, Cao XC. Joint optic disc and cup segmentation based on multi-label deep network and polar transformation. IEEE Trans. on Medical Imaging, 2018, 27(7): 1597-1605. [doi:10.1109/TMI.2018.2791488]
[32]
Sun X, Xu YW, Tan MK, Fu HZ, Zhao W, You TY, Liu J. Localizing optic disc and cup for glaucoma screening via deep object detection networks. In:Proc. of the Workshop on Ophthalmic Medical Image Analysis with Int'l Conf. on Medical Image Computing and Computer Assisted Intervention. Berlin, Heidelberg:Springer-Verlag, 2018, 236-244. [doi:10.1007/978-3-030-00949-6_28]
[33]
Pauline L, Camille C, Soumith C, Jakob V. Semantic segmentation using adversarial networks. In:Proc. of the Workshop on Adversarial Training with Advances in Neural Information Processing Systems. New York:Curran Associates Inc., 2016, 1-10. https://www.researchgate.net/publication/310953387_Semantic_Segmentation_using_Adversarial_Networks
[34]
[35]
Goodfellow IJ, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A, Bengio Y. Generative adversarial nets. In:Proc. of the 2014 Int'l Conf. on Neural Information Processing Systems. Cambridge:MIT Press, 2014, 2672-2680. https://www.researchgate.net/publication/319770355_Generative_Adversarial_Nets
[36]
Mirza M, Osindero S. Conditional generative adversarial nets. arXiv preprint, arXiv:1411.1784, 2014.
[37]
Wang KF, Gou C, Duan YJ, Lin YL, Zheng XH, Wang FY. Generative adversarial networks:The state of the art and beyond. Acta Automatica Sinica, 2017, 43(3): 321-332. [doi:10.16383/j.aas.2017.y000003]
[38]
Valpola H. From neural PCA to deep unsupervised learning. In:Proc. of the Advances in Independent Component Analysis and Learning Machines., 2015, 143-171. [doi:10.1016/B978-0-12-802806-3.09987-5]
[39]
Nasim S, Concetto S, Mubarak SS. Semi-Supervised semantic segmentation using generative adversarial network. In:Proc. of the 2017 IEEE Int'l Conf. on Computer Vision. Washington:IEEE Computer Society, 2017, 5688-5696. [doi:10.1109/ICCV.2017.606]
[40]
Li CX, Xu K, Zhu J, Zhang B. Triple generative adversarial nets. In:Proc. of the Advances in Neural Information Processing Systems 2017. New York:Curran Associates Inc., 2017, 4088-4098. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=fff189cba1228bc09ee36f9089c8bc92
[41]
He KM, Zhang XY, Ren SQ, Sun J. Deep residual learning for image recognition. In:Proc. of the 2016 IEEE Conf. on Computer Vision and Pattern Recognition. Washington:IEEE Computer Society, 2016, 770-778. [doi:10.1109/CVPR.2016.90]
[42]
Tian JX, Liu GC, Gu SS, Ju ZJ, Liu JG, Gu DD. Deep learning in medical image analysis and its challenges. Acta Automatica Sinica, 2018, 44(3): 401-424(in Chinese with English abstract). [doi:10.16383/j.aas.2018.c170153]
[43]
Ren SQ, He KM, Girshick R, Jian S. Faster R-CNN:Towards real-time object detection with region proposal networks. In:Proc. of the 2015 Int'l Conf. on Neural Information Processing Systems. New York:Curran Associates Inc., 2015, 91-99. [doi:10.1109/TPAMI.2016.2577031]
[44]
Szeliski R. Computer Vision:Algorithms and Applications. New York: Springer-Verlag, 2010. [doi:10.1007/978-1-84882-935-0]
[45]
Alec R, Luke M, Soumith C. Unsupervised representation learning with deep convolutional generative adversarial networks. In:Proc. of the 4th Int'l Conf. on Learning Representations., 2016, 1-16. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=aab7df43d42b6a78906b2e140bef7751
[46]
Zhang Z, Yin FS, Liu J, Wong WK. ORIGA-light:An online retinal fundus image database for glaucoma analysis and research. In:Proc. of the 2010 IEEE Conf. of Engineering in Medicine and Biology Society. Washington:IEEE Computer Society, 2010, 3065-3068. [doi:10.1109/IEMBS.2010.5626137]
[47]
Fumero F, Alayon S, Sanchez JL, Sigut J, Gonzalez-Hernandez M. RIM-ONE:An open retinal image database for optic nerve evaluation. In:Proc. of the 24th Int'l Symp. on Computer-based Medical Systems. Washington:IEEE Computer Society, 2011, 1-6. [doi:10.1109/CBMS.2011.5999143]
[48]
Sivaswamy J, Krishnadas SR, Chakravarty A, Joshi GD. A comprehensive retinal image dataset for the assessment of glaucoma from the optic nerve head analysis. JSM Biomed Imaging Data Papers, 2015, 1(2): 1-7. http://www.jscimedcentral.com/BiomedicalData/biomedicaldata-2-1004.pdf
[4]
郑光远, 刘峡壁, 韩光辉. 医学影像计算机辅助检测与诊断系统综述. 软件学报, 2018, 29(5): 1471-1514. http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?flag=1&file_no=5519&journal_id=jos [doi:10.13328/j.cnki.jos.005519]
[5]
石雪, 陈进琥, 李洪升, 尹勇, 李登旺. 基于感兴趣窄带区域的同步分割与配准方法及在IGRT中的应用. 自动化学报, 2015, 41(9): 1589-1600. [doi:10.16383/j.aas.2015.c140871]
[6]
孙文燕, 董恩清, 曹祝楼, 郑强. 一种基于模糊主动轮廓的鲁棒局部分割方法. 自动化学报, 2017, 43(4): 611-621. [doi:10.16383/j.aas.2017.c160260]
[17]
周飞燕, 金林鹏, 董军. 卷积神经网络研究综述. 计算机学报, 2018, 40(6): 1229-251. [doi:10.11897/SP.J.1016.2017.01229]
[19]
庞浩, 王枞. 用于糖尿病视网膜病变检测的深度学习模型. 软件学报, 2017, 28(11): 3018-3029. http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?flag=1&file_no=5332&journal_id=jos [doi:10.13328/j.cnki.jos.005332]
[42]
田娟秀, 刘国才, 谷珊珊, 鞠忠建, 刘劲光, 顾冬冬. 医学图像分析深度学习方法研究与挑战. 自动化学报, 2018, 44(3): 401-424. [doi:10.16383/j.aas.2018.c170153]