王雪(1982-), 女, 博士生, 主要研究领域为计算机视觉, 图像处理, 多媒体融合
李占山(1966-), 男, 博士, 教授, CCF专业会员, 主要研究领域为约束优化与约束求解, 机器学习, 图像处理
陈海鹏(1978-), 男, 博士, 教授, CCF专业会员, 主要研究领域为机器学习, 视觉推理
基于U-Net的编码-解码网络及其变体网络在医学图像语义分割任务中取得了卓越的分割性能. 然而, 网络在特征提取过程中丢失了部分空间细节信息, 影响了分割精度. 另一方面, 在多模态的医学图像语义分割任务中, 这些模型的泛化能力和鲁棒性不理想. 针对以上问题, 提出一种显著性引导及不确定性监督的深度卷积编解码网络, 以解决多模态医学图像语义分割问题. 该算法将初始生成的显著图和不确定概率图作为监督信息来优化语义分割网络的参数. 首先, 通过显著性检测网络生成显著图, 初步定位图像中的目标区域; 然后, 根据显著图计算不确定分类的像素点集合, 生成不确定概率图; 最后, 将显著图和不确定概率图与原图像一同送入多尺度特征融合网络, 引导网络关注目标区域特征的学习, 同时增强网络对不确定分类区域和复杂边界的表征能力, 以提升网络的分割性能. 实验结果表明, 所提算法能够捕获更多的语义信息, 在多模态医学图像语义分割任务中优于其他的语义分割算法, 并具有较好的泛化能力和鲁棒性.
The encoder-decoder network based on U-Net and its variants have achieved excellent performance in semantic segmentation of medical images. However, some spatial details are lost during feature extraction, which affects the accuracy of segmentation, and the generalization ability and robustness of these models are unsatisfactory. Therefore, this study proposes a deep convolutional encoder-decoder network with saliency guidance and uncertainty supervision to solve the semantic segmentation problem in multimodal medical images. In this method, the initially generated saliency map and the uncertainty probability map are used as the supervised information to optimize the parameters of the semantic segmentation network. Specifically, the saliency map is generated by the saliency detection network to preliminarily locate the target region in an image, and on this basis, the set of pixel points with uncertain classification is calculated to generate the uncertainty probability map. Then, the two maps are sent into the multi-scale feature fusion network together with the original image to guide the network to focus on the learning of the features in the target region and to enhance the representational capacity of regions with uncertain classification and complex boundaries. In this way, the segmentation performance of the network can be improved. The experimental results reveal that the proposed method can capture more semantic information and outperforms existing semantic segmentation methods in semantic segmentation of multimodal medical images, with strong generalization capability and robustness.
随着人工智能等新一代信息技术的发展, 现代医学和信息技术的高度融合, 促进了医学影像成像设备的发展, 进而涌现了大量不同模态的影像数据. 如何运用视觉智能算法对这些数据进行智能分析, 辅助医生临床诊断和治疗, 是计算机视觉领域的研究热点之一. 医学图像语义分割是计算机辅助诊断的关键技术. 作为医学图像分析理解的基础, 医学图像语义分割被广泛应用于各种智能诊断任务中, 如数字病理图像诊断和分析[
近年来, 深度学习技术在计算机视觉领域的各应用中取得了显著的效果, 如语义分割、目标检测、图像分类等. 其中, 全卷积网络(fully convolutional network, FCN)[
不同模态下的医学图像语义分割任务
基于U-Net的编码-解码网络[
上述方法虽然在医学影像分割任务中取得了不错的分割效果, 但仍有一些不足之处. 主要体现在两个方面: (1)基于U-Net的编码-解码网络及其变体, 一方面在特征提取过程中丢失了部分空间细节信息, 而对于语义分割来说, 这种细粒度的信息至关重要. 另一方面, 在不同模态的医学图像语义分割任务中, 这些模型的泛化能力和鲁棒性的表现不理想. (2)交互式的分割方法将用户提供的交互信息转化为基于目标和背景的距离图, 并与原图像共同作为网络的输入, 引导网络学习图像语义特征. 该类方法虽然提升了网络模型在不同医学图像语义分割任务中的分割精度, 以及泛化能力和鲁棒性, 但需要人为多次手动提供具有先验知识的交互信息.
针对上述问题, 本文充分结合U-Net编码-解码网络和交互式分割中用户提供的交互信息在语义分割中的优点, 构建了基于显著性引导和不确定性监督的医学图像语义分割算法. 该算法将显著性检测网络生成的显著图和不确定概率图作为网络的输入, 引导网络关注目标区域特征的学习, 同时增强网络对不确定分类区域和复杂边界的表征能力, 以提升网络在不同模态医学图像语义分割任务中的分割性能. 本文的主要贡献如下.
(1) 提出了一种显著性引导和不确定性监督的深度卷积编解码网络, 用来解决多模态下的复杂医学图像语义分割问题.
(2) 提出了一种多模态医学图像显著性检测算法. 通过多尺度特征的融合生成显著图, 并计算显著图中不确定分类的像素点集合, 生成不确定区域的概率图, 作为监督信息送入分割网络, 引导网络关注目标区域特征的学习, 同时增强网络对不确定分类区域和复杂边界的表征能力.
(3) 采取联合优化显著性检测网络和语义分割网络参数的方法, 既提升了显著性目标检测的性能, 避免了非目标区域的干扰, 同时也提高了网络的分割精度.
(4) 实验结果表明, 本文提出的显著性引导和不确定性监督的深度卷积编解码网络在多个模态医学图像数据集上, 与其他算法对比, 取得了更优的分割结果.
近年来, 随着卷积神经网络的发展, 基于深度学习的方法因其在图像语义特征学习上的杰出表现, 在医学影像分析中得到了广泛的关注. 目前, 基于深度学习的语义分割方法主要包括全卷积神经网络FCN、编码-解码网络、循环神经网络(recurrent neural networks, RNN)和生成对抗网络(generative adversarial network, GAN)等.
2015年, Long等人提出了FCN网络[
由于FCN在下采样过程中采取池化操作, 导致部分空间信息丢失, 且在分割中未充分考虑上下文信息, 致使分割结果不够精细. 为解决这些问题, 编码-解码网络引入医学影像分割中. 其中, 典型的编码-解码网络U-Net[
RNN在全局特征建模和上下文信息保存方面具有一定的优势. 因此, 在进行医学图像语义分割时, 一些专家学者将RNN的思想嵌入到网络中. Bai等人[
此外, 基于GAN方法是图像语义分割中的另一种思路, 它将网络分成生成器网络和判别器网络两个部分. 生成器网络和判别器网络在不断地对抗学习中优化网络参数, 逐步提高分割精度. 例如, Xue等人[
目前, 基于编码-解码网络的方法在医学图像语义分割中取得了很好的分割效果, 受到了众多研究者的关注, 并在此结构上提出了一些改进方法[
显著性目标检测的目的是突出图像中视觉上显著的目标区域. 近年来, 基于卷积神经网络的显著性目标检测模型被广泛应用于计算机视觉领域, 如图像理解[
现有的显著性目标检测方法在自然图像的显著性特征提取方面取得了一定的成果. 为了有效提取医学图像中目标区域的显著特征, 进而准确定位目标区域, 实现目标区域的精准分割, 受自然图像显著特征提取思想的启发, 本文结合各模态下的医学图像特点, 有效融合浅层空间细节信息和深层语义特征, 提出了适用于不同模态下的医学图像显著特征学习网络, 并作为引导信息进一步细化网络的分割结果.
本文提出的显著性引导及不确定性监督的深度卷积编解码网络模型主要包括3个模块: 显著性引导模块(saliency-guided module, SGM)、不确定性监督模块(uncertainty-supervised module, USM)和语义分割模块. 总体网络模型结构如
显著性引导及不确定性监督的深度编解码网络结构
该模块基于人类视觉特征, 通过网络学习视觉注意区域的特征, 计算图像区域的显著性, 进而自动捕获图像中感兴趣的目标区域, 作为后续分割任务的引导图. Wu等人[
显著性检测网络结构图
对于输入图像
RFB模块结构图
在解码过程的特征融合算法中, 为了解决不同层之间存在的语义鸿沟问题, 我们采取每一层特征图与更深层的语义特征图进行像素级的乘操作, 其目的是在浅层特征图中融合更多的深层语义信息. 具体操作定义如下:
其中,
其中,
尽管显著性引导模块生成了良好的显著图, 但因医学图像的模态多样性, 组织器官和病灶区域的形状不规则、尺度变化大、周围组织强度不均匀, 以及边界模糊等影响因素, 给医学图像显著性检测带来了一定的挑战, 算法对部分复杂样本的学习仍然存在局限性. 因此, 如何让网络更多地关注那些不确定分类区域, 加强不确定分类区域和复杂边界的特征表示能力, 成为医学图像精准分割的关键. 为了解决这一问题, 在文献[
其中,
因U-Net网络在医学图像语义分割领域取得了卓越的分割性能, 本文分割网络模型以U-Net跳跃连接-编码-解码网络结构为主干网络, 网络的输入除了原图像, 额外增加了原图像对应的显著图和不确定概率图两个通道. 由于U-Net网络在编码路径中逐层采用固定尺寸的卷积核学习图像中的抽象语义特征, 而对于医学图像中那些尺度变化大和形状不规则, 以及边界处对比度低的目标区域, 如肿瘤、细胞和组织器官等, U-Net网络不能鲁棒地学习其不同尺度的上下文信息, 导致分割性能的不稳定. 因此, 本文在编码底层引入了多尺度特征融合模块, 以不同尺度的感受野学习深层语义特征图中丰富的上下文信息, 进一步提升网络的分割性能. 本文的多尺度特征融合模块采用显著性检测网络中的RFB块.
本文采用联合训练的方式, 分别在显著性检测网络和语义分割网络输出的概率图{
其中,
其中,
本文共使用4个公开的医学图像数据集来验证本文算法的有效性. 数据集涵盖了不同模态下的医学图像语义分割任务, 包括皮肤镜下的皮肤癌病灶分割、显微镜成像下的细胞核分割和结肠镜下的息肉分割. 数据集的具体细节信息描述如
数据集细节描述
数据集 | 图片数量 | 图片大小 | 模态 |
ISIC 2018[ |
2 594 | 变化尺寸 | 皮肤镜图像 |
2018 Data Science Bowl | 670 | 256×256 | 混合模态 |
CVC-ClinicDB[ |
612 | 384×288 | 结肠镜图像 |
Kvasir-SEG[ |
1 000 | 变化尺寸 | 结肠镜图像 |
本文使用医学图像语义分割中常用的几种评估指标来验证算法的性能, 主要包括:
本文实验采用开源的PyTorch框架, 训练和测试在Ubuntu 16.04 LTS 64位操作系统上进行, 内存为64 GB DDR 4 MHz, 显卡采用NVIDIA GeForce GTX 1080 Ti独立显卡. 为了验证算法的性能, 这里未采用图像预处理和后处理操作, 所有图像在送入模型前只进行了尺寸大小的调整. 模型训练过程中, 损失函数采用二分类交叉熵损失, 优化算法采用Adam, 初始学习率为0.000 1, 批处理大小为4, 网络的训练迭代次数epoch为100次. 当训练损失每30次迭代保持不变时, 我们采取学习率下降10%的更新策略.
(1) ISIC 2018数据集上的实验对比结果
ISIC 2018为皮肤癌病灶分割数据集, 该数据集共2594张图片, 包含了不同尺度大小、不同形状和不同颜色的皮肤病变区域. 按照参考文献[
ISIC 2018 数据集上的定量比较结果
方法 | Rec | Spec | Acc | |
U-Net[ |
0.8163 | 0.8192 | 0.9741 | 0.9391 |
BCDU-Net ( |
0.8470 | 0.7830 | 0.9800 | 0.9360 |
BCDU-Net ( |
0.8510 | 0.7850 | 0.9370 | |
FANet[ |
0.8731 | 0.8650 | 0.9611 | 0.9351 |
本文算法 | 0.9802 |
ISIC 2018数据集上的可视化分割结果
(2) 2018 Data Science Bowl数据集上的实验对比结果
2018 Data Science Bowl为显微镜成像下的细胞核分割数据集. 该数据集共670张图片, 包含了大量不同细胞类型、不同放大倍数和不同成像方式的可变形状的细胞核. 按照文献[
2018 Data Science Bowl 数据集上的定量比较结果
方法 | Dice | mIoU | Rec | Prec |
U-Net[ |
0.9098 | 0.8372 | 0.8904 | 0.9164 |
DoubleU-Net[ |
0.9133 | 0.8407 | 0.6407 | |
FANet[ |
0.9176 | 0.8569 | 0.9194 | |
本文算法 | 0.9116 | 0.9347 |
2018 Data Science Bowl数据集上的可视化分割结果
(3) 息肉分割数据集上的实验对比结果
本文分别在结肠镜下的CVC-ClinicDB和Kvasir-SEG数据集上进行息肉分割实验. 其中, CVC-ClinicDB数据集包含612张图片, 尺寸大小为384×288; Kvasir-SEG数据集包含1000张不同尺寸的图片. 我们按照文献[
CVC-ClinicDB 数据集上的定量比较结果
方法 | Dice | mIoU | Rec | Prec |
U-Net[ |
0.8123 | 0.7476 | 0.8256 | 0.8388 |
ResUNet-mod[ |
0.7788 | 0.4545 | 0.6683 | 0.8877 |
ResUNet++[ |
0.7955 | 0.7962 | 0.7022 | 0.8785 |
本文算法 |
Kvasir-SEG 数据集上的定量比较结果
方法 | Dice | mIoU | Rec | Prec |
U-Net[ |
0.8116 | 0.7217 | 0.7949 | 0.8726 |
ResUNet-mod[ |
0.7909 | 0.4287 | 0.6909 | 0.8713 |
ResUNet++[ |
0.8133 | 0.7927 | 0.7064 | 0.8774 |
本文算法 |
CVC-ClinicDB和Kvasir-SEG数据集上的可视化分割结果
本节主要针对本文的显著性引导模块、不确定性监督模块和语义分割模块在网络模型中的有效性进行了消融实验研究. 首先, 显著性引导模块中, 我们对原文献[
生成显著图的可视化对比结果
进一步地, 本文评估了各模块在网络模型中的贡献和分割性能. 本文以U-Net网络为分割的主干网络, 我们采取各模块组合的操作来验证相应模块的有效性.
各评价指标在不同数据集上的消融实验对比结果
● SGM+U-Net: 该组合表示在主干网络U-Net基础上加入显著性引导模块, 其目的是通过显著性检测初步定位目标区域, 消除背景区域的干扰, 并作为输入信息引导网络分割.
● SGM+USM+U-Net: 该组合表示在显著性引导模块的基础上增加了不确定性监督模块, 其目的是加强不确定分类区域和复杂边界的特征表示能力, 使网络更关注不确定分类区域的学习.
● SGM+USM+RFB-U-Net: 该组合为本文最终的网络结构, 这里将前两个模块得到的显著图和不确定概率图作为监督信息与原图一并送入分割网络, 同时, 在U-Net编码底层加入了多尺度特征融合模块RFB, 以不同尺度的感受野学习深层语义特征图中丰富的上下文信息, 以进一步提升网络的分割性能.
如
本文提出一种显著性引导及不确定性监督的深度卷积编解码网络, 用来解决不同模态下的复杂医学图像语义分割问题. 其中, 显著性检测模块通过汇聚浅层的丰富空间信息和深层的全局语义信息, 有效地挖掘出图像中的目标区域, 提升了显著图的预测结果. 不确定性监督模块通过计算不确定概率图, 引导网络更加关注不确定区域的特征学习, 增强了不确定区域和复杂边界的表征能力. 语义分割模块通过在编码底层增加多尺度感受野特征提取模块, 有效提升了网络全局上下文信息的感知能力, 进一步提升了模型的分割效果. 此外, 本文采取联合优化显著性检测网络和语义分割网络参数的方法, 既提升了显著性目标检测的性能, 避免了非目标区域的干扰, 同时也提高了网络的分割精度. 本文通过消融实验证实了各模块在语义分割中的有效性. 实验表明, 本文算法在多个不同模态的医学图像数据集上的分割性能均优于其他算法. 我们相信本文算法也可推广到其他医学图像语义分割任务中.
医学图像的模态多样性和复杂性, 类别不均衡, 样本量少和数据质量等问题, 仍然给医学图像语义分割带来了更多的挑战. 如何针对现有问题, 设计更具泛化能力的网络模型, 进一步提升医学图像的分割精度, 成为未来研究的方向.
http://www.jos.org.cn/1000-9825/6205.htm]]>
http://www.jos.org.cn/1000-9825/6205.htm]]>
Ibtehaz N, Rahman MS. MultiResUNet: Rethinking the U-Net architecture for multimodal biomedical image segmentation. Neural Networks, 2020, 121: 74–87. [doi: 10.1016/j.neunet.2019.08.025]
Gu R, Wang GT, Song T, Huang R, Aertsen M, Deprest J, Ourselin S, Vercauteren T, Zhang ST. CA-Net: Comprehensive attention convolutional neural networks for explainable medical image segmentation. IEEE Transactions on Medical Imaging, 2021, 40(2): 699–711. [doi: 10.1109/TMI.2020.3035253]
Wang CY, Wang YL, Liu YF, He ZF, He R, Sun ZN. ScleraSegNet: An attention assisted U-Net model for accurate sclera segmentation. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2020, 2(1): 40–54. [doi: 10.1109/TBIOM.2019.2962190]
Gu ZW, Cheng J, Fu HZ, Zhou K, Hao HY, Zhao YT, Zhang TY, Gao SH, Liu J. CE-Net: Context encoder network for 2D medical image segmentation. IEEE Transactions on Medical Imaging, 2019, 38(10): 2281–2292. [doi: 10.1109/TMI.2019.2903562]
Wang GT, Zuluaga MA, Li WQ, Pratt R, Patel PA, Aertsen M, Doel T, David AL, Deprest J, Ourselin S, Vercauteren T. DeepIGeoS: A deep interactive geodesic framework for medical image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(7): 1559–1572. [doi: 10.1109/TPAMI.2018.2840695]
Wang GT, Li WQ, Zuluaga MA, Pratt R, Patel PA, Aertsen M, Doel T, David AL, Deprest J, Ourselin S, Vercauteren T. Interactive medical image segmentation using deep learning with image-specific fine tuning. IEEE Transactions on Medical Imaging, 2018, 37(7): 1562–1573. [doi: 10.1109/TMI.2018.2791721]
Xue Y, Xu T, Zhang H, Long LR, Huang XL. SegAN: Adversarial network with multi-scale
http://www.jos.org.cn/1000-9825/6104.htm]]>
http://www.jos.org.cn/1000-9825/6104.htm]]>
Zhu JY, Wu JJ, Xu Y, Chang E, Tu ZW. Unsupervised object class discovery via saliency-guided multiple class learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(4): 862–875. [doi: 10.1109/TPAMI.2014.2353617]
Ren ZX, Gao SH, Chia LT, Tsang IWH. Region-based saliency detection and its application in object recognition. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24(5): 769–779. [doi: 10.1109/TCSVT.2013.2280096]
Li X, Zhao LM, Wei LN, Yang MH, Wu F, Zhuang YT, Ling HB, Wang JD. DeepSaliency: Multi-task deep neural network model for salient object detection. IEEE Transactions on Image Processing, 2016, 25(8): 3919–3930. [doi: 10.1109/TIP.2016.2579306]
Wang YT, Ren TW, Zhong SH, Liu Y, Wu GS. Adaptive saliency cuts. Multimedia Tools and Applications, 2018, 77(17): 22213–22230. [doi: 10.1007/s11042-018-5859-y]
Chen LC, Papandreou G, Kokkinos I, Murphy K, Yuille AL. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834–848. [doi: 10.1109/TPAMI.2017.2699184]
Bernal J, Sánchez FJ, Fernández-Esparrach G, Gil D, Rodríguez C, Vilariño F. WM-DOVA maps for accurate polyp highlighting in colonoscopy: Validation vs. saliency maps from physicians. Computerized Medical Imaging and Graphics, 2015, 43: 99–111. [doi: 10.1016/j.compmedimag.2015.02.007]
Zhang ZX, Liu QJ, Wang YH. Road extraction by deep residual U-Net. IEEE Geoscience and Remote Sensing Letters, 2018, 15(5): 749–753. [doi: 10.1109/LGRS.2018.2802944]