2. 中国科学院 自动化研究所, 北京 100190;
3. 气象大数据与机器学习联合实验室, 北京 100190
2. Institute of Automation, The Chinese Academy of Sciences, Beijing 100190, China;
3. Joint Laboratory of Meteorological Data and Machine Learning, Beijing 100190, China
气象分析研究是一个关乎国计民生的课题, 其中, 晴雨天气预测是重要的一环[1].晴雨分类对交通、旅游、基建、农业灌溉以及人们的日常生活都有重要影响[2].1kmx1km和6min时间间隔高时空分辨率条件下的晴雨分类对许多行业更具服务意义.
提高晴雨预报准确率也是气象预报预测领域中一个十分重要的研究课题, 但由于降雨是各种尺度的天气系统共同作用的结果, 其形成机制非常复杂, 具有显著的非线性、时变性特征, 因此, 利用传统的统计方法很难揭示其变化规律[3].美国热带测雨任务卫星可以实现全球3h间隔的降雨估计, 给晴雨分类带来希望, 但由于受近地面随时间和位置变化气象条件的影响, 近地面晴雨区域的估计尽管非常重要但却非常困难[4].受风速、风向、气压、地形等因素的影响, 高时空分辨率晴雨分类准确性不高, 估计结果不确定性大, 是更具挑战性的研究课题.
为了提高晴雨分类的准确率, 在过去的研究中, 大量学者将雷达、卫星和地面站观测因子多源数据用于晴雨分类, 取得了不少研究成果.
●卫星观测因子晴雨分类方法
文献[4]利用微波辐射计在雨区与不下雨区域亮温差异进行晴雨分类; 文献[5]利用卫星图像识别不降雨云, 约60%的非降雨云能够被识别出来; 文献[6]利用卫星上的微波辐射计测量云层中的液态水含量, 根据液态水含量进行晴雨分类; 文献[7]在微波辐射计因子上应用随机森林机器学习算法进行晴雨分类, 优于通用的戈达德数字图表法(GPROF)晴雨分类; 文献[8]利用变分法进行晴雨分类.卫星在降雨云区检测方法具有优势, 但是卫星观测因子主要反映云顶信息, 而真正下雨的区域可能只有云覆盖区域的1/4.当前卫星观测晴雨分类, 微波辐射计因子反演云层液态水含量, 进行晴雨分类, 对卫星观测空间信息利用不足.
●雷达观测因子晴雨分类方法
文献[9, 10]利用1.5km, 2.5km, 3.5km和4.5km高度雷达CAPPI数据, 依据神经网络机器学习方法进行晴雨分类; 文献[2]分析利用CAPPI和PPI进行晴雨分类, 其主要依据阈值来判断晴雨, 比如依据1.5km CAPPI值判断晴雨.雷达观测的多层空间信息及高时空分辨率对晴雨分类非常有利, 但当前雷达晴雨分类仅利用少数几层CAPPI进行晴雨分类, 而单层CAPPI或者少数几层CAPPI晴雨分类结果易受降水相态、空中飞行物等干扰而影响准确性.
●数值模式推断气象因子或者地面自动站观测因子晴雨分类方法
这类方法主要根据降雨形成的气象条件来估计晴雨.早在1980年, 文献[11]就利用八型图推断24h晴雨状况; 之后, 文献[12]利用T213数值模式推断气象要素, 借助KNN机器学习方法获得12h间隔晴雨预报, 总体上降低了预报空报率, 提高了晴雨预报的TS评分和预报准确率; 文献[3]利用T639数值模式推算40个气象要素, 借助SVM机器学习方法获得12h间隔晴雨预报, 在北京地区夏季晴雨预报中得到应用; 文献[1]利用地面自动化观测站观测的气温、气压、相对湿度等气象要素进行小时晴雨分类, 并且考虑到晴雨样本不平衡问题的处理.但是目前, 这类方法很少利用雷达和卫星的数据进行晴雨分类, 而雷达和卫星的分辨率要远高于地面观测因子的分辨率.
从晴雨分类方法现状来看, 单一利用雷达、卫星或者地面观测气象因子都很难实现较好的高时空分辨率晴雨分类.本文提出一种雷达、卫星和地面观测气象因子多视角融合晴雨分类方法.该方法的物理依据如图 1所示.在2016年泉州雷达覆盖区域上的实验结果表明, 该方法在1kmx1km空间分辨率、6min间隔时间分辨率晴雨分类上, 可以明显提高准确性.
本文的主要贡献如下:
(1) 提出了晴雨分类多视角构建方法.依据雷达观测因子构造了VisCAPPI视角和VisPPI视角; 依据葵花卫星资料构造了VisSat视角; 依据地面观测因子构造了VisGround视角.这4个视角都能对6min、1kmx1km区域进行晴雨分类.
(2) 提出应用空间邻域点特征扩展方法, 分别应用在雷达、卫星和地面观测气象因子上, 相应地提高了雷达、卫星观测因子单个视角晴雨分类的准确性.
(3) 本文提出了一种多视角权重随机森林方法(MVWRF), 实现了雷达、卫星和地面观测气象因子多源数据融合晴雨分类.实验证明, 本文所提出的方法能显著提高晴雨分类准确性, 优于对比方法.
本文第1节说明晴雨分类方法现状, 分析当前卫星、雷达及地面观测气象因子晴雨分类所存在的问题, 概述本文提出的方法及主要贡献.第2节总结多视角相关研究工作进展.第3节介绍本文提出的多视角权重随机森林晴雨分类方法.第4节介绍实验设计及实验结果.第5节介绍进一步实验及结果分析.最后, 在第6节给出结论和展望, 总结全文, 并对未来研究方向进行初步探讨.
2 相关工作由于本文提出一种多视角方法用于雷达、卫星及地面观测因子多源数据融合晴雨分类, 因此, 本节主要阐述多视角相关研究工作.
文献[13]综述了多视角学习的进展, 总结了多视角构建方面的一些主要方法.各种多视角构建方法针对不同问题, 各有优劣.这些多视角构建方法与本文在构建晴雨分类多视角构建上的区别与联系如下.
(1) 雷达、卫星和地面观测因子构成了3大类具有物理意义的晴雨分类视角.这与文献[14]对图像分块构建多视角有些类似.
(2) 雷达、卫星和地面观察因子视角之间存在时空不一致性, 需解决时空不一致性, 以方便多视角协同工作.这与一般的多视角方法不同, 其原因是:本文采用物理上多视角, 而多数方法采用人工生成多视角.
(3) 雷达反射率因子依据物理上水平与竖直投影产生CAPPI和PPI视角, 而且可以对应气象上的CAPPI和PPI数据产品.
(4) 各视角分类器选择随机森林做为分类, 本质上应用了子空间随机投影生成多视角方法.这方面有大量研究工作:文献[15]提出通过随机子空间方法构建决策森林; 文献[16]提出随机子空间和不等数量训练样本构建多视角; 文献[17]提出综述了高光谱图像, 从聚类和随机选择子空间等方面构建多视角.
3 多视角权重随机森林晴雨分类方法本文主要研究雷达、卫星和地面观测因子多源数据融合晴雨分类, 提出一种多视角权重随机森林晴雨分类方法(MVWRF).
选用随机森林作为每一个视角分类模型的原因:(1)随机森林卓越的分类性能, 文献[18]在121个数据集上对比了179种分类器, 随机森林方法取得了最好的分类结果; (2)随机森林方法具有Bootstrap重采样, 未被采样的Out-of-Bag样本的估计误差是模型泛化误差的无偏估计[19]; (3)随机森林方法易于并行, 能处理大数据[20].
该方法流程框图如图 2所示, 包括训练和测试两个过程.
●训练过程.输入雷达、卫星和地面观测因子以及晴雨训练数据, 依据雷达观测数据构建VisCAPPI和VisPPI晴雨分类视角, 依据卫星观测数据构建VisSat晴雨分类视角, 依据地面观测数据构建VisGround晴雨分类视角.在这4个视角上分别学习随机森林模型, 并获得模型评分.模型评分结合各个视角权重先验, 在贝叶斯框架下可以获得各个视角权重.各个视角随机森林模型和视角权重组合到一起形成多视角权重RF模型(MVWRF).
●测试过程.输入卫星、雷达和地面观测因子测试数据, 分别构建VisCAPPI, VisPPI, VisSat和VisGround这4个视角, 应用多视角权重随机森林模型分别对这4个视角进行模型估计, 获得4个模型估计结果.再对结果进行融合, 得出测试样本的最终晴雨分类结果.
在这个多视角方法中, 关键步骤包括:(a)由雷达、卫星和地面观测数据生成VisSat, VisCAPPI, VisPPI和VisGround这4个视角及其组合视角; (b)主导视角和辅助视角随机森林模型学习和视角权重的确定; (c)晴雨分类结果融合.本节下面的内容详细介绍这3个关键步骤.
3.1 雷达卫星及地面观测气象因子视角构建本节主要介绍雷达、卫星及点观测因子视角构建方法.共有的时空匹配方法包括:反距离加权空间插值[21], PCHIP插值方法[22]将10min间隔的卫星和地面观测数据转换为6min间隔分辨率.此外, 本文还将对每个视角特征进行空间扩展[23], 增加单视角的有用信息.具体视角构建过程如下.
A.雷达数据及视角构建
雷达的时空高分辨率使得雷达成为当前高分辨率晴雨分类最合适的手段, 因此, 雷达观测是晴雨分类的主导视角.按照前面的描述, 主导视角需要依据投影变换生成2组相辅相成的视角特征.依据气象知识, 雷达型号为CINRAD/SA多普勒天气雷达(单偏振雷达), 获得基本反射率因子.将雷达反射率因子投影到不同海拔高度层上, 获得每6min, 1kmx1km分辨率16高度层CAPPI数据(1km, 1.5km, 2km, 3km, 3.5km, 4km, 4.5km, 5km, 5.5km, 6km, 7km, 8km, 9km, 10km, 11km, 12km), 依次组合这些特征, 构成网格数据.获取训练自动观测站点的经纬度信息, 找到最临近的4个网格特征数据, 反距离加权插值方法获得自动观测站点对应的CAPPI特征数据, 除插值生成的CAPPI数据之外, 再应用空间扩展方法获取临近的8个网格点数据作为邻域特征, 组合144维CAPPI特征, 获得VisCAPPI视角特征.
将雷达反射率因子垂直投影到地面上, 每个地理位置上截取3层雷达反射率因子, 获得每6min, 1kmx1km分辨率3高度层PPI数据, 反距离加权插值方法获得自动观测站点对应的PPI特征数据, 空间邻域特征扩展获得临近8个网格点PPI数据, 组合27维PPI特征, 构成VisPPI视角特征.
B.卫星数据及视角构建
卫星是识别云、计算云层中体积含水量的重要手段, 也是国外晴雨分类研究的重点.以葵花卫星为例, 包含16个通道的数据, 可生成每10min, 2kmx2km分辨率网格数据, 反距离加权插值方法获得自动观测站点对应的卫星观测通道特征数据, 空间邻域特征扩展获得临近8个网格点卫星数据, 组合144维PPI特征, 通过时间匹配方法将10min的卫星数据插值到6min, 构成VisSat视角特征.
C.地面观测气象因子及视角构建
地面要素包括本站气压、还平面气压、气温、露点温度、相关湿度、水气压等19个地面观测数据, 通过反距离加权插值获得1kmx1km格点地面观测数据, 空间邻域特征扩展获得临近8个网格点地面观测数据, 组合171维地面观测特征, 通过时间匹配方法将10min的卫星数据插值到6min, 构成VisGround视角特征.
D.组合视角构建
视角特征组合如图 3所示.
雷达CAPPI和PPI特征组合生成VisCAPPI_PPI视角, 雷达CAPPI、PPI和卫星观测特征组合生成VisRadar_ Sat视角, 雷达CAPPI、PPI和地面观测特征组合生成VisRadar_Ground视角, 卫星和地面观测特征组合生成VisSat_Ground视角, 雷达CAPPI、PPI、卫星和地面观测特征组合生成VisRadar_Sat_Ground视角.
3.2 各视角晴雨分类分类器学习及视角权重估计本节主要介绍:(1)单视角随机森林分类器[19]学习; (2)视角评价并确定主导视角和辅助视角; (3)视角权重的确定.
A.单视角及组合视角随机森林分类器学习
根据雷达观测视角VisCAPPI和VisPPI, 卫星观测视角VisSat以及地面观测视角与晴雨观测之间, 分别训练4个随机随机森林分类器模型, 随机森林构建随机决策树时, 节点拆分函数使用Gini指数, 随机决策树数目设置为100.依次学习得到的分类模型如下:视角VisCAPPI随机森林分类模型为H1(·), 视角VisPPI随机森林分类模型为H2(·), 视角VisSat随机森林分类模型为H3(·), 视角VisGround随机森林分类模型为H4(·), 视角VisCAPPI_PPI随机森林分类模型为H5(·), 视角VisRadar_Sat随机森林分类模型为H6(·), 视角VisRadar_Ground随机森林分类模型为H7(·), VisSat_Ground随机森林分类模型为H8(·), VisRadar_Sat_Ground随机森林分类模型为H9(·).随机森林分类器学习方法参照文献[19].
B.多视角模型构建
在确定了单视角随机森林分类器之后, 按照组合误差最小的准则, 找出总误差最小的4个视角组合, 雷达、卫星和地面观测联合多视角分类模型如下:
$ \mathop {\arg \min }\limits_\mathit{\Theta} f\left( \mathit{\Theta} \right) = \sum\limits_{i = 1}^4 {\sum\limits_{j = 1}^N {{W_{\mathit{\Theta} \left( i \right)}}} } {\left( {{y_j}-{H_{\mathit{\Theta} \left( i \right)}}\left( {{x_{ij}}} \right)} \right)^2} $ | (1) |
$ {W_{\mathit{\Theta} \left( i \right)}} = \left( {P_{prior}^i \times P_{validation}^i} \right)/\sum\limits_{j = 1}^4 {\left( {P_{prior}^j \times P_{validation}^j} \right)} $ | (2) |
这里, N表示训练样本个数, xij表示第i个视角第j个样本的特征, yj表示晴雨标记, Θ(i)(i=1, 2, 3, 4)表示从单视角及组合视角中随机选择的4个视角的索引, HΘ(i)(·)(i=1, 2, 3, 4)表示从
算法1.多视角晴雨分类分类器模型训练算法.
输入:雷达视角训练样本(X1, X2, Y)、卫星训练样本(X3, Y)、地面训练样本(X4, Y);
雷达视角验证样本(XV1, XV2, YV)、卫星训练样本(XV3, YV)、地面训练样本(XV4, YV);
视角权重先验概率Ppriori(i=1, 2, …, 9)和视角模型Hi(i=1, 2, …, 9).
输出:视角分类模型HΘ_min(i)(i=1, 2, 3, 4)和视角权重WΘ_min(i)(i=1, 2, 3, 4).
1.随机选择4个视角, 视角权重先验概率Ppriori(i=1, 2, …, 9)和视角模型Hi(i=1, 2, …, 9);
2. for i=1 to 4
3. HΘ(i)=RandomForestLearning(Xi, Y)[19];
4. Yti= RandomForestClassify(Hi, XVi)[19];
5.计算第i个视角准确性Pvalidationi(见第5节的准确性计算);
6.计算后验概率
7.依据公式(2)计算WΘ(i);
8. End for
9.依据公式(1)计算f(Θ);
10.重复步骤1~步骤9, 遍历各种组合, 获得最小的f(Θ_min);
11.依据Θ_min, 获得HΘ_min(i)(i=1, 2, 3, 4)和WΘ_min(i)(i=1, 2, 3, 4).
这里, 验证样本也可以使用Out-of-Bag样本.
3.3 晴雨分类结果融合结果融合动机:(1)对于双主导视角分类结果一致的估计, 确定为最终的估计结果; (2)对于双主导视角估计结果不一致的情况, 由辅助视角投票阈值决定估计结果.
多示例融合晴雨分类过程:首先, 应用主导视角学习得到的模型对测试数据进行分类, 假定得到测试结果(T1, T2, …, Tp), Y1=T1∩T2∩…∩Tp(这里, P=2, 两个主导视角分别为VisCAPPI和VisPPI); 如果模型的测试结果一致, 则将一致的分类结果作为最终的估计结果.令Y2=T1∪T2∪…∪Tp-T1∩T2∩…∩Tp, 对于Y2, 则由辅助视角来确定最终的估计结果.假定辅助视角的测试结果(TA1, TA2, …, TAq)(这里, q等于2, 两个辅助视角分别为VisSat和VisGround), 辅助视角投票得分最高的类别形成的集合YA2作为Y2的替代估计结果.特别地, 针对两类问题, 只要样本的辅助视角估计结果在某类别上投票大于设定阈值, 即可认为该样本属于这个类别; 否则属于另一个类别.晴雨分类结果融合的数学表达如下.
$ f\left( j \right) = 2 \times \sum\limits_{i = 1}^4 {{r_{ij}}{H_{\mathit{\Theta} \_\min \left( i \right)}}\left( {{x_{ij}}} \right)} $ | (3) |
$ {r_{1j}} = {I_j} \cdot {W_{\mathit{\Theta} \_\min \left( 1 \right)}} $ | (4) |
$ {r_{2j}} = {I_j} \cdot {W_{\mathit{\Theta} \_\min \left( 2 \right)}} $ | (5) |
$ {r_{3j}} = {{\bar I}_j} \cdot {I_{ij}} \cdot {W_{\mathit{\Theta} \_\min \left( 3 \right)}} $ | (6) |
$ {r_{4j}} = {{\bar I}_j} \cdot {I_{ij}} \cdot {W_{\mathit{\Theta} \_\min \left( 4 \right)}} $ | (7) |
这里, N表示训练样本个数; xij表示第i个视角第j个样本的特征; HΘ_min(i)(×)(i=1, 2, 3, 4)依次表示4个视角的分类模型; rij(i=1, 2, 3, 4)依次表示这4个视角模型在测试样本上权重系数, 它主要由样本作用系数Ij, Ij, Iij和多视角权重系数WΘ_min(i)(i=1, 2, 3, 4)决定.样本作用系数确定方法如下.
$ {I_j} = \left\{ \begin{array}{l} 1, \;\;{H_{\mathit{\Theta} \_\min \left( 1 \right)}}\left( {{x_{1j}}} \right) = {H_{\mathit{\Theta} \_\min \left( 2 \right)}}\left( {{x_{2j}}} \right)\\ 0, \;{H_{\mathit{\Theta} \_\min \left( 1 \right)}}\left( {{x_{1j}}} \right) \ne {H_{\mathit{\Theta} \_\min \left( 2 \right)}}\left( {{x_{2j}}} \right) \end{array} \right. $ | (8) |
$ {{\bar I}_j} = \left\{ \begin{array}{l} 0, \;\;{H_{\mathit{\Theta} \_\min \left( 1 \right)}}\left( {{x_{1j}}} \right) = {H_{\mathit{\Theta} \_\min \left( 2 \right)}}\left( {{x_{2j}}} \right)\\ 1, \;{H_{\mathit{\Theta} \_\min \left( 1 \right)}}\left( {{x_{1j}}} \right) \ne {H_{\mathit{\Theta} \_\min \left( 2 \right)}}\left( {{x_{2j}}} \right) \end{array} \right. $ | (9) |
$ {I_{ij}} = \left\{ \begin{array}{l} 1, \;\;{H_{\mathit{\Theta} \_\min \left( i \right)}}\left( {{x_{ij}}} \right) > 0\\ 0, \;{H_{\mathit{\Theta} \_\min \left( i \right)}}\left( {{x_{ij}}} \right) = 0 \end{array} \right. $ | (10) |
针对测试样本, 晴雨分类结果融合算法流程见算法2.
算法2.晴雨分类结果融合算法.
输入:雷达视角测试样本(XT1, XT2)、卫星测试样本XT3、地面测试样本XT4;
4个视角的随机森林模型HΘ_min(i)(·)(i=1, 2, 3, 4), 权重WΘ_min(i)(i=1, 2, 3, 4).
输出:晴雨分类结果.
1.视角HΘ_min(1)(·)对第j个样本X1j分类, 获得估计结果HΘ_min(1)(X1j);
2.视角HΘ_min(2)(·)对第j个样本X2j分类, 获得估计结果HΘ_min(2)(X2j);
3.视角HΘ_min(3)(·)对第j个样本X3j分类, 获得估计结果HΘ_min(3)(X3j);
4.视角HΘ_min(4)(·)对第j个样本X4j分类, 获得估计结果HΘ_min(4)(X4j);
5.依据公式(3)计算, 获得f(j);
6.如果f(j)≥0.5, 则判定为下雨; 如果f(j) < 0.5, 则判定为晴.
4 实验设计与实验结果 4.1 实验数据集本文采用2016年10月7日、8日距泉州雷达40km~120km区域的雷达、卫星和地面观测气象因子作为实验数据.雷达型号为CINRAD/SA多普勒天气雷达(单偏振雷达), 应用第3.1节(A)所述方法构建VisCAPPI视角和VisPPI视角.雨量站数据来源于距离泉州雷达40km~120km的自动观测站, 每6个连续1min雨量观测累积生成6min间隔雨量数据.实验中采集了393个自动观测站的雨量数据.卫星数据来源于葵花卫星每10min间隔16通道的观测数据, 基于卫星数据, 采用第3.1节(B)所述方法构建VisSat视角.地面要素包括本站气压、海平面气压、气温、露点温度、相关湿度、水气压等19个地面观测数据, 基于地面观测气象因子, 采用第3.1节(C)所述方法构建VisGround视角.采用第3.1节(D)所述方法构建组合视角.数据总体情况见表 1.
4.2 对比方法
本文主要研究卫星、雷达和地面观测因子多源数据融合晴雨分类, 因此主要对比卫星观测因子晴雨分类方法、雷达观测因子晴雨分类方法和地面观测因子晴雨分类方法.主要对比方法如下.
a) 典型的卫星晴雨分类方法.应用随机森林机器学习, 对微波辐射计信号进行模型学习, 进而获得待估计样本的模型估计结果; 由于随机森林机器模型分类结果主要取决于强特征的分类精度[24], 因此, 本文使用卫星的所有通道进行晴雨分类, 随机森林模型的随机决策树数量设置为100, 其他参数均采用默认参数.
b) 典型的雷达降雨估计方法.基于组合反射率方法阈值判断方法, 基于雷达CAPPI方法和PPI方法进行晴雨分类.由于神经网络方法结果受网络参数的影响较大, 本文中使用随机森林方法代替神经网络方法.随机森林模型的随机决策树数量设置为100, 其他参数均采用默认参数.CAPPI使用1.5km, 2.5km, 3.5km和4.5km高度层CAPPI雷达反射率因子, PPI使用最靠近地面的3层PPI雷达反射率因子.
c) 典型的地面气象因子晴雨分类机器学习方法.KNN和SVM中使用19个地面观测因子进行晴雨分类, KNN机器学习方法的近邻数目设置为5, SVM机器学习方法核函数使用二次函数核.
在实验数据集1和数据集2上采取5折交叉验证方法, 每次选择样本的4/5样本用于模型训练, 剩余样本总数的1/5样本用于测试, 对交叉验证的测试结果求平均值, 得出实验结果.
4.3 评价准则令TP表示测试集中所有观测下雨且模型估计也是下雨的样本数量, FN表示测试集中所有观测为下雨而模型估计为晴的样本数量, FP表示测试集中所有观测为晴而模型估计为下雨的样本数量, TN表示测试集中所有观测为晴且模型估计也是晴的样本数量.评价指标如下.
1) 精确性
P=TP/(TP+FP)该指标度量模型估计为下雨时, 有多大比例真正下雨.
2) 准确性
A=(TP+TN)/(TP+FN+FP+TN)该指标度量晴雨分类的整体准则性.
3) 召回率
R=TP/(TP+FN)该指标度量观测下雨有多少被估计正确.
4) F-score
F=2*P*R/(P+R)该指标是对下雨的平衡度量指标.
5) TS评分
TS=TP/(TP+FP+FN)该指标是气象上的TS评分度量指标.
6) 漏警概率
MA=FN/(TP+FN)该指标度量有多少观测下雨被漏报.
7) 虚警概率
FA=FP/(TP+FP)该指标度量有多少观测晴被误报为下雨.
4.4 实验结果本节针对本文提出的多视角权重随机森林方法以及上述对比方法, 在实验数据集1和实验数据集2上进行实验, 结果如下.
表 2给出了在实验数据集1上本文提出的方法和对比方法的实验结果.从表 1可以看出:对于高时空分辨率晴雨分类, 卫星观测因子晴雨分类方法与基于地面观测因子晴雨分类KNN方法相比, 准确率提高了2.95%, 召回率提高了4.99%, 漏报率降低了8.91%, 空报率降低了14.36%;雷达CAPPI观测因子晴雨分类方法与卫星观测因子晴雨分类相比, 准确率提高了15.84%, 召回率提高了34.65%, 漏报率降低了53.96%, 空报率降低了76.14%.总体上, 雷达多层雷达CAPPI晴雨分类结果优于卫星和地面观测因子晴雨分类结果.本文提出的多源数据融合方法晴雨分类结果各项评价指标, 均优于对比方法, 与对比方法里效果最好的雷达CAPPI观测因子晴雨分类方法相比, 准确率提高了1.72%, 召回率提高了5.12%, 漏报率降低了23.33%, 空报率降低了19.05%.
表 3给出了在实验数据集2上本文提出的方法和对比方法的实验结果.
从表 3可以看出:对于高时空分辨率晴雨分类, 卫星观测因子晴雨分类方法与基于地面观测因子晴雨分类KNN方法相比, 准确率提高了8.11%, 召回率提高了29.12%, 漏报率降低了40.62%, 空报率降低了9.98%;雷达CAPPI观测因子晴雨分类方法与卫星观测因子晴雨分类相比, 准确率提高了19.45%, 召回率提高了23.33%, 漏报率降低了41.74%, 空报率降低了54.94%.总体上, 雷达多层雷达CAPPI晴雨分类结果优于卫星和地面观测因子晴雨分类结果.本文提出的多源数据融合方法晴雨分类结果各项评价指标, 均优于对比方法, 与对比方法里效果最好的雷达CAPPI观测因子晴雨分类方法相比, 准确率提高了2.76%, 召回率提高了6.13%, 漏报率降低了23.56%, 空报率降低了8.59%.MVWRF方法在精确率和虚警概率上不如组合反射率晴雨分类, 这是因为组合反射率漏警概率很高, 也就是将大量难以判断晴雨的情况估计为晴, 而晴的样本数量大, 从而造成组合反射率估计精确度高、虚警概率低, 但是这种大量下雨的情况未被估计出来, 服务效果相对较差.
表 3和表 2的实验结果表明, 卫星观测晴雨分类结果优于或接近地面观测因子晴雨分类结果.这主要是由于相对于卫星观测而言, 地面自动化观测点过于稀疏, 因此地面观测因子对于高分辨率晴雨分类效果可能不如卫星观测因子.雷达CAPPI观测因子晴雨分类结果优于卫星观测和地面观测因子晴雨分类结果, 这是由于雷达CAPPI更能反映接近地面的低空雨滴分布, 而卫星观测主要反映云顶及云综合液态含水量.本文所提出的雷达、卫星和地面观测因子多源数据融合晴雨分类方法综合利用了雷达、卫星和地面观测因子晴雨多源数据融合信息, 取得了更好的晴雨分类结果.
5 进一步实验与分析本节主要分析本文所提出的空间扩展方法对晴雨分类结果的影响, 实验不同机器学习方法的晴雨分类效果以及本文所提出的多视角多示例数据融合方法与其他融合方法进行对比实验.
5.1 空间邻域扩展效果对比分析表 4给出了在数据集1上, 雷达、卫星及地面观测因子晴雨分类以及雷达、卫星及地面观测因子空间邻域扩展对比效果.雷达空间邻域扩展准确度提高了0.76%, 召回率提高了4.86%, 漏报率降低了16.28%, 虚警概率增加了2.44%.卫星空间邻域扩展准确度提高了1.62%, 召回率提高了9.52%, 漏报率降低了13.30%, 虚警概率降低了3.69%.地面观测空间邻域扩展准确度提高了0.12%, 召回率提高了0.15%, 漏报率降低了12.44%, 虚警概率降低了3.33%.
表 5给出了在数据集2上, 雷达、卫星及地面观测因子晴雨分类以及雷达、卫星及地面观测因子空间邻域扩展对比效果.
雷达空间邻域扩展准确度提高了4.59%, 召回率提高了20.27%, 漏报率降低了40.42%, 虚警概率升高了13.07%.卫星空间邻域扩展准确度提高了0.46%, 召回率提高了2.95%, 漏报率降低了5.32%, 虚警概率降低了0.24%.地面观测空间邻域扩展准确度提高了0.12%, 召回率减少了6.59%, 漏报率升高了16.38%, 虚警概率降低了2.82%.
从实验结果来看, 空间邻域扩展主要作用是提高了雷达和卫星的召回率, 降雨估计精度明显提高, 漏报率降低.对于地面观测因子, 提升效果不太明显.
5.2 多种机器学习方法效果对比分析常用机器学习对比方法有支持向量机、K近邻、朴素贝叶斯、adaboost和随机森林算法.支持向量机算法默认采用RBF核, 其他参数为默认设置; K近邻算法近邻数量采用5近邻; 随机森林算法随机决策树数量设置为100, 其他参数为默认设置.实验数据为雷达、卫星和地面观测因子组合特征向量.
表 6显示了随机森林、支持向量机、KNN、adaboost和朴素贝叶斯机器学习方法在数据集1上的晴雨分类结果.从实验结果来看, 随机森林机器学习方法在晴雨分类准确度和TS评分上高于其他机器学习方法, 除朴素贝叶斯方法外, 其他评价指标与最优的评价指标接近.朴素贝叶斯方法在召回率、F-score和漏警概率上结果好, 但是虚警概率是其他机器学习方法的2倍以上, 将较多难以分辨的晴雨状态分类为雨, 从而造成雨的准确性高, 而晴的准确性很低.
表 7显示了随机森林、支持向量机、KNN、adaboost和朴素贝叶斯机器学习方法在数据集2上的晴雨分类结果.支持向量机选择常用的各种核, 在数据集2上实验多次迭代不收敛.从实验结果来看, 随机森林机器学习方法在晴雨分类各项评价指标上优于或不低于其他机器学习方法.
表 8显示了随机森林、KNN、adaboost和朴素贝叶斯机器学习方法在数据集1上的晴雨分类结果.从实验结果来看, 除朴素贝叶斯方法外, 随机森林机器学习方法在晴雨分类准确度上高于其他机器学习方法, 漏报率和空报率低于其他机器学习方法.朴素贝叶斯方法和表 6的实验结果一样, 空报率显著高于其他机器学习方法.
表 9显示了随机森林、KNN、adaboost和朴素贝叶斯机器学习方法在数据集2上的晴雨分类结果.从实验结果来看, 随机森林机器学习方法在晴雨分类各项评价指标上优于其他机器学习方法.支持向量机选择常用的各种核, 在数据集1和数据集2上出现迭代不收敛的情况.
从这种常用的机器学习方法对比来看, 本文选择随机森林机器学习方法可以取得较好的晴雨分类结果.
5.3 雷达卫星地面观测因子融合晴雨分类对比本节主要从两个方面进行因子融合晴雨分类对比:(1)不同视角特征组合下晴雨分类对比; (2)全视角特征下不同视角融合方法晴雨分类效果对比.
A.视角特征组合对比
本节分析各种不同视角特征相互组合晴雨分类对比结果, 模型学习方法为随机森林机器学习方法.随机森林算法随机决策树数量设置为100, 其他参数为默认设置.
表 10的实验结果表明:从单一视角来看, 雷达VisCAPPI视角取得了最好的晴雨分类结果; 从因子组合来看, 雷达、卫星、地面观测全因子组合下取得了最好的晴雨分类结果; 从雷达视角来看, 与卫星观测因子组合后性能略有上升, 与地面观测因子组合后性能严重下降; 从卫星视角来看, 与雷达观测因子及与地面观测因子组合晴雨分类性能有大幅度上升; 从地面观测因子来看, 与卫星观测因子组合性能有大幅度提升.雷达双主导视角因子组合CAPPI_PPI以及卫星地面因子组合均有不错的性能, 这也促成了本文所提出的多视角多示例融合方法能否取得很好的晴雨分类效果.
表 11的实验结果表明:雷达VisCAPPI视角是取得最好晴雨分类效果的单一视角; 雷达和卫星因子组合以及卫星和地面因子组合的晴雨分类效果更加显著, 在一些评价指标上超过了雷达、卫星和地面观测全因子组合晴雨分类效果; 雷达CAPPI_PPI因子组合晴雨分类结果与雷达卫星因子组合晴雨分类效果接近, 而雷达VisCAPPI和VisPPI双主导视角正是利用了CAPPI_PPI因子信息.此外, 卫星和地面观测因子信息正是本文的辅助视角所利用的信息, 这也从客观上说明本文所提出的方法适合雷达、卫星和地面观测因子多源数据融合晴雨分类, 能够取得更好的晴雨分类结果.
B.多视角融合方法效果对比分析
多视角融合对比方法有PCA、子空间学习LSL[25]、典型相关分析GCCA、字典学习+PCA、多视角协同表示(RKR[26]).应用多视角方法进行晴雨分类训练和测试的过程如下:首先, 应用多视角融合方法对训练数据进行特征变换; 然后, 再对变换后的数据进行随机森林机器学习, 获得分类模型; 最后, 对测试数据进行相应的变换, 应用获得的分类模型对变换后的数据进行测试, 根据测试结果和观测结果得到评价指标.
本文所提出的方法如第3节所述, 其中的随机森林算法参数与多视角融合方法所使用的随机森林算法参数一致, 随机决策树数量设置为100, 其他参数为默认设置.表 12和表 13的实验结果表明, 虽然本文构建了雷达VisCAPPI和VisPPI、卫星VisSat以及地面VisGround这4个视角, 但是直接应用多视角融合方法并不能取得好的晴雨分类结果; 而本文所提出的多视角融合方法能够取得很好的晴雨分类结果.
6 结论与展望
本文研究雷达、卫星和地面观测多源数据下的晴雨分类问题, 概述了国际国内雷达晴雨分类、卫星晴雨分类以及地面观测因子晴雨分类主要方法.在此基础上, 本文构建了雷达VisCAPPI和VisPPI视角、卫星VisSat视角和地面VisGround这4个视角及其组合视角, 提出了一种多视角融合晴雨分类方法.在2016年10月7日和10月8日泉州雷达131个自动观测站上测试验证, 主要结论如下.
1) 在10月7日数据集1上, 5折交叉验证, 结果表明, 本文所提出的方法比最好的晴雨分类方法准确率提高了1.72%, 召回率提高了5.12%, 漏报率降低了23.33%, 空报率降低了19.05%.在10月8日数据集2上, 本文所提出的方法比最好的晴雨分类方法准确率提高了2.76%, 召回率提高了6.13%, 漏报率降低了23.56%, 空报率降低了8.59%.
2) 本文所提出的空间扩展特征构造方法, 对于雷达和卫星观测晴雨分类均能取得性能的提升.
3) 随机森林机器学习方法在晴雨分类模型学习上, 相对于SVM、KNN、adaboost和朴素贝叶斯方法更具优势.
4) 本文在已构建的4个视角融合实验时, 所对比的多视角融合方法都未能取得晴雨分类效果的提升, 本文提出的融合方法可以取得晴雨分类效果的显著提升.
值得说明的是, 本文主要研究卫星、雷达和地面观测因子多源数据融合方法所使用的数据集, 晴雨样本数量基本接近, 在实际应用中, 使用大量历史数据进行模型训练时, 需研究晴雨训练样本分布不平衡问题, 采用合适的不平衡学习方法进行处理.
[1] |
Wang JH, Liang L, Wang B. Analysis of imbalanced weather data based on branch-and-bound approach. Application Research of Computers, 2016, 33(6): 1648–1652(in Chinese with English abstract).
http://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201606011.htm |
[2] |
Yoo C, Kang M, Ro Y. Applicability of precipitable water for enhancing radar accuracy on identification of rain and no rain. Journal of Korean Society of Hazard Mitigation, 2015, 15(1): 111–121.
[doi:10.9798/KOSHAM.2015.15.1.111] |
[3] |
He N, Fu ZY, Zhao W, Wu J, Wu JK, Liao XN. Application of SVM method to summer clear-rain forecast in Beijing region. Torrential Rain and Disasters, 2013, 32(3): 284–288(in Chinese with English abstract).
http://www.cnki.com.cn/Article/CJFDTOTAL-HBQX201303016.htm |
[4] |
Seto S, Takahashi N, Iguchi T. Rain/No-Rain classification methods for microwave radiometer observations over land using statistical information for brightness temperatures under no-rain conditions. Journal of Applied Meteorology, 2005, 44(44): 1243–1259.
[doi:10.1175/JAM2263.1] |
[5] |
Xu LM, Sorooshian S, Gao XG, Gupta HV. A cloud-patch technique for identification and removal of no-rain clouds from satellite infrared imagery. Journal of Applied Meteorology, 2010, 38(8): 1170–1181.
[doi:10.1175/1520-0450(1999)038<1170:ACPTFI>2.0.CO;2] |
[6] |
Kida S, Shige S, Kubota T, Aonashi K, Okamoto K. Improvement of rain/no-rain classification methods for microwave radiometer observations over the ocean using a 37GHz emission signature. Journal of the Meteorological Society of Japan.Ser.Ⅱ, 2009, 87: 165–181.
[doi:10.2151/jmsj.87A.165] |
[7] |
Islam T, Rico-Ramirez MA, Srivastava PK, Dai Q. Non-Parametric rain/no rain screening method for satellite-borne passive microwave radiometers at 19~85GHz channels with the random forests algorithm. Int'l Journal of Remote Sensing, 2014, 35(9): 3254–3267.
[doi:10.1080/01431161.2014.903444] |
[8] |
Araki K, Murakami M, Ishimoto H, Tajiri T. Ground-Based microwave radiometer variational analysis during no-rain and rain conditions. Scientific Online Letters on the Atmosphere Sola, 2015, 11: 108–112.
[doi:10.2151/sola.2015-026] |
[9] |
Xiao RR, Chandrasekar V, Liu H, Gorgucci E. Detection of rain/no rain condition on ground from radar data using a Kohonen neural network. In:Proc. of the IEEE Int'l Symp. on Geoscience and Remote Sensing. IEEE, 1998. 159-161.[doi:10.1109/IGARSS.1998.702834] |
[10] |
Liu H, Chandrasekar V, Gorgucci E. Detection of rain/no rain condition on the ground based on radar observations. IEEE Trans. on Geoscience and Remote Sensing, 2001, 39(3): 696–699.
[doi:10.1109/36.911127] |
[11] |
Li ZL. A short-term weather forecast method for rain/no rain classification. Journal of Meteorological Research and Application, 1980(4): 25–29(in Chinese with English abstract).
http://www.cnki.com.cn/Article/CJFDTOTAL-GXQX198004005.htm |
[12] |
Zhou MF, Xiong W, Liu HZ. Forecast experiments of rain/no rain in Guizhou using KNN method. JournM of Guizhou Meteorology, 2010, 34(6): 3–5(in Chinese with English abstract).
http://www.wenkuxiazai.com/doc/76fd4d096c175f0e7cd1378c.html |
[13] |
Xu C, Tao D, Xu C. A survey on multi-view learning. In:Proc. of the Computer Science. 2013. 1304-5634. |
[14] |
Bickel S, Scheffer T. Multi-View clustering. In:Proc. of the IEEE Int'l Conf. on Data Mining, Vol.4. 2004. 19-26.[doi:10.1109/ICDM.2004.10095] |
[15] |
Ho TK. The random subspace method for constructing decision forests. IEEE Trans. on Pattern Analysis and Machine Intelligence, 1998, 20(8): 832–844.
[doi:10.1109/34.709601] |
[16] |
Tao DC, Tang XO, Li XL, Wu XD. Asymmetric bagging and random subspace for support vector machines-based relevance feedback in image retrieval. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2006, 28(7): 1088–1099.
[doi:10.1109/TPAMI.2006.134] |
[17] |
Di W, Crawford MM. View generation for multiview maximum disagreement based active learning for hyperspectral image classification. IEEE Trans. on Geoscience and Remote Sensing, 2012, 50(5): 1942–1954.
[doi:10.1109/TGRS.2011.2168566] |
[18] |
Fernández-Delgado M, Cernadas E, Barro S, Amorim D. Do we need hundreds of classifiers to solve real world classification problems?. Journal of Machine Learning Research, 2014, 15(1): 3133–3181.
http://www.doc88.com/p-6743254980284.html |
[19] |
Breiman L. Random forests. Machine Learning, 2001, 45(1): 5–32.
[doi:10.1023/A:1010933404324] |
[20] |
Río SD, López V, Benítez JM, Herrera F. On the use of MapReduce for imbalanced big data using random forest. Information Sciences, 2014, 285: 112–137.
[doi:10.1016/j.ins.2014.03.043] |
[21] |
Yang XH, Xie XJ, Liu DL, Ji F, Wang L. Spatial interpolation of daily rainfall data for local climate impact assessment over greater Sydney region. In:Advances in Meteorology. 2015. 1-12.[doi:10.1155/2015/563629] |
[22] |
Fritsch FN, Carlson RE. Monotone piecewise cubic interpolation. SIAM Journal on Numerical Analysis, 1980, 17(2): 238–246.
[doi:10.1137/0717021] |
[23] |
Kuang QM, Yang XB, Zhang WS, Zhang GP. Spatiotemporal modeling and implementation for radar-based rainfall estimation. IEEE Geoscience and Remote Sensing Letters, 2016, 13(11): 1601–1605.
[doi:10.1109/LGRS.2016.2597170] |
[24] |
Biau G. Analysis of a random forests model. The Journal of Machine Learning Research, 2012, 13(1): 1063–1095.
https://hal.archives-ouvertes.fr/docs/00/47/65/45/pdf/article2.pdf |
[25] |
Zhang L, Zhu PF, Hu QH, Zhang D. A linear subspace learning approach via sparse coding. In:Proc. of the IEEE Int'l Conf. on Computer Vision. 2011. 755-761.[doi:10.1109/ICCV.2011.6126313] |
[26] |
Wang S. Relaxed collaborative representation for pattern classification. In:Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2012. 2224-2231.[doi:10.1109/CVPR.2012.6247931] |
[1] |
王剑辉, 梁路, 王彪. 基于分支限界的不平衡气象数据晴雨分析. 计算机应用研究, 2016, 33(6): 1648–1652.
http://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201606011.htm
|
[3] |
何娜, 付宗钰, 赵玮, 吴进, 吴剑坤, 廖晓农. SVM方法在北京地区夏季晴雨预报中的初步应用. 暴雨灾害, 2013, 32(3): 284–288.
http://www.cnki.com.cn/Article/CJFDTOTAL-HBQX201303016.htm
|
[11] |
李志陆. 一个短期晴雨天气预报方法. 气象研究与应用, 1980(4): 25–29.
http://www.cnki.com.cn/Article/CJFDTOTAL-GXQX198004005.htm
|
[12] |
周明飞, 熊伟, 刘还珠. KNN方法在贵州晴雨预报中的实验. 贵州气象, 2010, 34(6): 3–5.
http://www.wenkuxiazai.com/doc/76fd4d096c175f0e7cd1378c.html
|