摘要:自然场景文本检测的主流方法大多使用复杂且层数较多的网络来提升检测精度, 需要较大的计算量和存储空间, 难以部署到计算资源有限的嵌入式设备上. 知识蒸馏可通过引入与教师网络相关的软目标信息, 辅助训练轻量级的学生网络, 实现模型压缩. 然而, 现有的知识蒸馏方法主要为图像分类任务而设计, 提取教师网络输出的软化概率分布作为知识, 其携带的信息量与类别数目高度相关, 当应用于文本检测的二分类任务时会存在信息量不足的问题. 为此, 针对场景文本检测问题, 定义一种新的信息熵知识, 并以此为基础提出基于掩码信息熵迁移的知识蒸馏方法(mask entropy transfer, MaskET). MaskET在传统蒸馏方法的基础上引入信息熵知识, 以增加迁移到学生网络的信息量; 同时, 为了消除图像中背景信息的干扰, MaskET通过添加掩码的方法, 仅提取文本区域的信息熵知识. 在ICDAR 2013、ICDAR 2015、TD500、TD-TR、Total-Text和CASIA-10K这6个公开标准数据集上的实验表明, MaskET方法优于基线模型和其他知识蒸馏方法. 例如, MaskET在CASIA-10K 数据集上将基于MobileNetV3的DBNet的F1得分从65.3%提高到67.2%.