基于迁移学习及气象卫星云图的台风等级分类研究
Research on Transfer Learning Methods for Classification of Typhoon Cloud Image
通讯作者:
收稿日期: 2018-09-25 修回日期: 2019-12-21 网络出版日期: 2020-03-31
基金资助: |
|
Received: 2018-09-25 Revised: 2019-12-21 Online: 2020-03-31
作者简介 About authors
郑宗生(1979-),男,河北唐山人,博士,副教授,主要从事海洋信息化及深度学习、迁移学习应用方面的研究E⁃mail:
关键词:
Keywords:
本文引用格式
郑宗生, 胡晨雨, 黄冬梅, 邹国良, 刘兆荣, 宋巍.
Zheng Zongsheng, Hu Chenyu, Huang Dongmei, Zou Guoliang, Liu Zhaorong, Song Wei.
1 引 言
台风是一种破坏力极强的灾害性天气系统,对沿海地区造成了巨大的人员伤亡和经济损失。目前,国内外对台风的研究主要集中在路径和强度的预测上[1],相对于台风路径而言,强度预测更加困难[2,3]。传统的台风强度预测大多基于数值预报模型,由于对台风强度变化的物理过程了解不够、模式分辨率不高[4],严重影响了模型性能。随着观测技术与探测手段的不断发展,特别是卫星遥感技术通过大面积、同步及非接触方式直接获取台风数据,克服了传统数据获取的不足[5]。遥感卫星云图中蕴含丰富的气象信息,通过分析各类台风云系图像,能够有效地进行云类识别[6]、台风监测和预报[7]。台风大多是由热带辐合区(ITCZ)云带中的云团扰动引起,在卫星云图上表现为不同特征的台风(眼)螺旋云系,其与台风强度密切相关[8],因此对不同的螺旋云系进行特征提取,能够实现台风强度的等级分类。Dvorak分析法是目前较成熟的卫星云图分析法。通过人工直接分析可见光及红外线云图,获得云系中心和气旋形态相关参数,进行全天候热带气旋强度评估[9]。但是计算过程复杂且需要大量专业知识,主观性较强,增加了分析误差。
随着机器学习和深度学习在图像处理领域的广泛应用,研究者开始将此类算法运用到遥感图像上。杨朦朦等[10]提出了一种基于双树复小波分解的BP神经网络的遥感影像分类方法,解决了高分辨率多光谱遥感影像分类的模糊性和不确定性,与基于纹理、光谱等特征的神经网络算法对比精度达到93.10%。针对云种特征的模糊性,赵亮亮等[11]建立了具有大卷积核的浅层神经网络进行云分类任务,分类精度比传统的K近邻机器学习算法高15.6%。为了进一步提高卫星遥感图像场景分类的准确度,崔先亮等[12]提出一种指导学习卷积神经网络GL-CNN,将高低频子带样本融合后,用GL-CNN网络自动提取图像的高低频子带包含的高层特征来实现场景分类,分类准确率高达94.52%。但目前利用深度学习方法对气象云图的分类存在如下问题:①对于复杂的气象云图,浅层卷积网络特征提取不充分,分类效果不佳;②深层卷积网络开发难度大,在台风云图数据样本小的情况下,过拟合现象严重。
迁移学习提供一种将源环境中学到的知识运用到相关环境,以辅助完成新任务的方法。迁移学习放宽了传统机器学习中必须拥有足够的训练样本,且训练和测试样本必须服从同概率分布的前提条件[13]。随着深度卷积神经网络在自动分析和图像特征识别方面取得的卓越成果,迁移学习被广泛应用于卷积神经网络,通过共享源环境中的模型结构或先验参数以实现目标任务。如王文朋等[14]迁移VGG16源模型的整体网络参数用于提高烟雾场景识别的精度。黄洁等[15]将预迁移源模型AlexNet与支持向量机(SVM)相结合,用于舰船遥感图像的目标检测,一定程度上避免了过拟合现象。孙超等[16]改进了基于CNN的自然图像超分辨率方法以提高图像的分辨率,并将改进的网络结构及参数迁移到少数高质量红外图像上,改善了红外图像的超分辨率性能。考虑到源域和目标域的差异,Long等[17]将ImageNet数据集上已训练好的AlexNet网络结构和对应权重参数迁移到目标任务上,并在高层网络间进行多层适配,以减小源域和目标域之间的差异。为了数值化预迁移源模型的迁移能力,Muhammad等[18]将源域与目标域之间样本的互信息作为衡量源模型迁移能力的指标,并将迁移率最高的源模型网络结构及参数迁移到目标域上进行分类任务。迁移学习能够很好地解决现实中多数领域中标注数据有限、特征异构甚至异类等问题。但迁移学习在各方面应用及迁移效果的研究中多数考虑网络参数的全部迁移,实际上由于源域及目标域的差异,必然存在最佳迁移层数。如何适配源模型的最佳迁移层数,在充分考虑目标域样本特征的同时提高迁移效果,也是迁移学习研究的关键性问题。
鉴于VGG16、InceptionV3、ResNet50 3种源模型在大样本ImageNet自然数据集上具有良好的特征提取能力,本文通过这3种具有代表性的源模型在小样本自建台风数据集上迁移效果的对比实验,确立最佳迁移源模型及迁移层数,构建了适应于台风小样本数据集的迁移预报模型T-typCNNs,有效减缓深度网络在小样本数据集上出现的过拟合问题。实验结果表明,在迁移源模型基础上通过最佳迁移层数适配与自适应微调相结合的方法,能够在遥感数据不足的情况下,实现台风等级快速、高精度分类,为台风预警预报提供了一种有效的辅助决策方法。
2 数据获取及研究方法
2.1 数据集构建与预处理
本文所用的自建台风数据由日本国立情报学研究所(National Institute of Informatics,简称NII)提供,气象云图数据取自“Himawari1-8号”气象卫星, 时间分辨率为10 min。“H-8”搭载的高级成像仪(AHI)有16个可见光和红外通道,可见光和红外图像的空间分辨率分别可达到0.5~1 km和1~2 km。本文选取近40 a来台风云图作为数据样本。由于源域ImageNet数据集的自然图像超过百万张,为避免域样本数量及内容上差异引发的过拟合问题,首先对图像进行增强和归一化处理,通过随机旋转、缩放、偏移和翻转等数据扩增技术提高样本数量。由于源模型输入为三通道彩色图像,将气象云图的单通道灰度图像进行通道扩增,形成RGB三通道图像,最后将图片重采样为224×224和299×299像素。依照国际台风分类标准,根据台风中心风速将数据集分为5类:热带低压、热带风暴、强热带风暴、台风和强台风,如表1所示。
表1 台风等级标准
Table1
台风等级分类 | 最大风速(10 min平均值) | ||
---|---|---|---|
kt | m/s | km/h | |
热带低压(TD) | <33 | <17 | <62 |
热带风暴(TS) | ≥33~<48 | ≥17~<25 | ≥62~<89 |
强热带风暴(STS) | ≥48~<64 | ≥25~<33 | ≥89~<118 |
台风(TY) | ≥64~<85 | ≥33~<42 | ≥118~<150 |
强台风(STY) | ≥85 | ≥42 | ≥150 |
台风云图数据集采用5类标签标记,每类图像2 500张,其中2 000张训练集,500张验证集,数据集总样本达12 500张,部分云图样本如图1所示。
图1
图1
台风云图样本注:(a)为一级台风部分数据样本,(b)为二级台风部分数据样本,(c)为三级台风部分数据样本,(d)为四级台风部分数据样本,(e)为五级台风部分数据样本
Fig.1
Typhoon samples
2.2 研究方法与模型构建
2.2.1 研究方法
深度卷积神经网络通过卷积层与采样层交替堆叠,实现对原始图像的低层抽象特征提取和高层语义表达。
如图2所示,卷积核前向映射到前一层特征图
图2
从式(1)和(2)可以看出,每一层感受野大小
迁移学习旨在利用源领域中训练出的良好学习能力解决新领域中的学习任务 。具体可以公式化定义为:
深度卷积神经网络中特定的结构及参数代表网络良好的特征提取能力,本文提出一种基于参数迁移的网络自适应微调学习方法,将深度网络算法
鉴于目标域中台风云图特有的台风眼、云墙以及螺旋云带等特征难以通过源模型算法
如图3所示,在预处理后的云图数据上对比两种源模型迁移方式的分类精度:一种是迁移源模型的整体网络结构及参数;另一种是迁移整体网络结构,依据适配的最佳迁移层数冻结相应层参数,并自适应微调剩余网络参数。对比分析两种目标模型的分类性能,最终构建出适用于台风等级分类的T-typCNNs模型。
图3
2.2.2 T-typCNNs模型构建
由于台风卫星云图中不同强度等级的螺旋云系特征关联相似性很高[19],为了能充分区分台风图像的高层特征及不同螺旋云系间低层特征的细微差别,本文选取了三种在ImageNet图像识别上具有良好特征学习能力的深度卷积网络模型进行实验对比。
针对上述3种源模型各自的特点,本文选取了网络深度相对较浅的VGG16、网络层数较深的InceptionV3及ResNet50,用于对比网络深度对迁移效果的影响。为了对比网络结构对迁移效果的影响,选取结构不同的深度网络InceptionV3和ResNet50。各源模型的具体参数详见表2。
表2 3种源模型参数配置
Table2
模型 | 原始图像 | 参数 | 网络深度 | 大小 |
---|---|---|---|---|
VGG16 | 224 | 138 357 544 | 23 | 528 MB |
InceptionV3 | 299 | 23 851 784 | 159 | 92 MB |
ResNet50 | 224 | 25 636 712 | 168 | 99 MB |
比较上述3种源模型在迁移网络整体结构以及全部层参数到台风数据集上时的分类精度,选择出性能最佳的源模型,并进一步适配其最大迁移层数。如图4所示,将最后的分类器层中神经元个数设置为5,表示台风的5个等级。通过冻结此部分层参数权重并微调再训练剩余网络参数,构建出适应于台风小样本集的迁移预报模型T-typCNNs。
图4
3 实验结果与分析
本文实验环境为windows10操作系统,CPUintelXeonX5650@2.67 GHz,内存为16 G,软件采用python3.6版本,实验基于Tensorflow的Keras框架。
实验主要分3个部分:①评估自建的CNN模型与3种源模型深度卷积网络深度对台风云图等级分类精度的影响;②迁移源模型深度网络结构和参数辅助台风等级分类任务,进一步寻找最佳迁移层数并在台风数据集上对剩余网络参数进行自适应微调;③针对源模型的特殊网络结构,探究不同数量级的台风样本对迁移并微调后的源模型分类性能的影响。
3.1 基于网络层深度的对比与分析
实验自建了8层卷积网络CNN_8,包含4个卷积层、2个池化层和和2个全连接层。卷积核尺寸参考VGG16模型,均选用3
表3 不同深度模型仅迁移网络结构的分类性能
Table 3
网络结构 | 代码 层数 | 网络参数 | 训练精度/% | 测试精度/% | 时间 /epoch |
---|---|---|---|---|---|
CNN_8 | 6 | 35 474 | 75.314 | 72.563 | 71 s |
VGG16 | 20 | 138 357 544 | 81.647 | 74.031 | 153 s |
InceptionV3 | 311 | 23 851 784 | 85.033 | 78.472 | 304 s |
ResNet50 | 175 | 25 636 712 | 86.951 | 81.315 | 212 s |
从表3看出,在12 500张自建台风云图上训练出的4种网络由于层数和结构不同,呈现出不同的训练效果。自建的CNN_8网络由于卷积层数少于VGG16,平均测试精度低于3种迁移源模型5.67%。随着网络层数加深,模型的分类精度明显提高,证明深度网络可以提取到原始台风图像中不同螺旋云系之间特征的细微差别。但VGG16和InceptionV3深度网络均出现过拟合现象。ResNet50凭借特殊的残差结构和较深网络层数,将测试精度提升了2.84%,但随着网络层数的加深,训练时间大幅增加,过拟合程度随着迭代次数的增加越来越严重。
3.2 网络参数与结构全部迁移对比与分析
针对实验1中深度卷积网络存在的问题,实验2迁移3种源模型结构和全部卷积层权重参数到自建台风数据集上。只替换模型的Softmax分类层,替换分类器后的3个源模型在自建台风数据集上的分类效果详见表4。
表4 深度模型迁移整体网络结构和参数的分类性能
Table4
网络结构 | 训练精度/% | 测试精度/% | 训练时间/s |
---|---|---|---|
VGG16 | 83.131 | 81.092 | 137s/epoch |
InceptionV3 | 87.772 | 84.726 | 253s/epoch |
ResNet50 | 92.649 | 88.611 | 176s/epoch |
从表4可以看出,3种模型的训练时长均有明显缩短。测试精度比实验1平均提高了6.87%,并有效缓解了过拟合现象,将训练和测试精度差控制在3.02%左右,ResNet50的最高分类精度可达88.611%。
3.3 网络参数部分迁移对比与分析
3.3.1 最佳迁移层数
以迁移源模型VGG16为例,VGG16的特征提取层被划分为5个模块,分别从block1到block5,每个模块包含多个卷积层。以模块为单位,将每一个模块中的卷积层及其层参数迁移到目标数据集上,并记录实验数据。据此方法,源模型InceptionV3和ResNet50在台风数据集上的最大迁移层数均可以获得,如图6和7所示。
图6
图6
迁移InceptionV3模型各层的分类精度
Fig.6
Classification accuracy of each layer of the transferred InceptionV3 model
VGG16有13个卷积层,分别迁移每一层结构及参数到自建台风数据集,并比较13个子源模型训练出的验证精度。横坐标表示用Keras实现的代码层数。如图5所示,迁移前1~12层时,验证精度的波动幅度不大,振幅在3.0%内。从迁移13层开始,精度下降到67.7%。模型迁移能力明显下降,精度上下浮动较震荡,证明源模型的前12个卷积层在ImageNet数据集上训练出的特征提取能力在自建台风数据集上具有普适性,能够提取到台风云图底层像素级别的公共特征信息。13~17层的卷积核在ImageNet上提取特征的能力并不能适用于台风云图数据,即提取的特征因数据集的不同开始特殊化,特征表示越来越抽象化。所以即使网络层数增加了,模型性能反而下降。此现象验证了Yosinski等[23]通过逐层分析AlexNet卷积神经网络的迁移能力所得出的结论。
图5
图5
迁移VGG16模型各层的分类精度
Fig.5
Classification accuracy of each layer of the transferred VGG16 model
从图6看出,当迁移InceptionV3的1~223层,特别是98~223层时,子源模型在台风数据集上的验证精度从75.8%提高到78.2%,当迁移到224~305层时精度一直下降,证明提取到的台风特征越来越具体特殊化。因此,InceptionV3模型在台风数据集上的最佳迁移层数为223。
图7展示了迁移ResNet50各卷积层到台风数据集上的分类性能。在迁移1~110层时,子源模型的验证精度高达78.1%,从111~156层迁移精度下降到低至67.6%。因此,ResNet50模型在台风数据集上的最佳迁移层数为110。
图7
图7
迁移ResNet50模型各层的分类精度
Fig.7
Classification accuracy of each layer of the transferred ResNet50 model
通过比较各子源模型在目标域上的分类精度,确定能提取到源域和目标域公共特征的最大网络层数。因此,源模型的迁移层参数应该选取合理值。
3.3.2 自适应微调方法
通过上述方法可以得出各源模型的最佳冻结层数,即分别冻结源模型VGG16、InceptionV3和ResNet50的12层、223层和110层权重参数,并设置剩余层参数为可更新状态,在目标数据集上进行自适应微调。表5列出了当3种源模型分别冻结最佳层数权重,剩余层参数在台风数据集上进行微调再训练后的模型精度。实验参数设置与实验1相同,训练迭代100次,批数量为64,学习率均设置为1e-4,学习动量均为0.9。
表5 自适应微调后的各模型性能
Table5
网络结构 | 最佳冻结层数 | 训练精度/% | 测试精度/% | 训练时间/s |
---|---|---|---|---|
VGG16 | 12 | 89.323 | 82.712 | 146s/epoch |
InceptionV3 | 223 | 92.744 | 87.398 | 294s/epoch |
ResNet50 | 110 | 95.081 | 91.134 | 182s/epoch |
从表5可以看出,采用参数迁移并微调再训练的方法可以对模型性能起明显提升作用,尤其对ResNet50模型在适当增加训练时间的情况下,测试精度从88.611%提高到91.134%,优于VGG16模型8.422%,比InceptionV3分类性能高出3.736%。ResNet50模型凭借其特殊的残差结构,获得较高分类精度的同时,模型深度和结构上优于VGG16,占用内存资源和训练时间上优于InceptionV3。
3.4 T-typCNNs模型性能分析
将分类精度与训练时间作为综合评价指标,迁移ResNet50模型整体网络结构,冻结前110层网络参数并将剩余层参数设置为可更新状态,构建出台风等级预测模型T-typCNNs。图8和9展示了T-typCNNs在自建台风数据集上的模型分类性能。
图8
由上图看出,T-typCNNs模型的训练和验证精度分别在迭代16次和34次之后趋于收敛,达到95.081%和91.175%,没有发生过拟合现象。将迭代次数增加到200次精度并没有明显改善,进一步证明模型已经训练到最优性能,模型损失值在迭代42次后下降到0.106左右并趋于平稳。
T-typCNNs模型中残差结构内部的并行传输方式,通过舍弃局部对图像的特征提取能力来换取比InceptionV3更深的网络层数,理论上适当增加目标域中有标签训练样本,模型的性能会有所提升。
为证实上述理论,实验在不同数量级的台风云图样本上比较T-typCNNs模型的分类性能。如图10所示,进行10组对比实验,每组台风样本的训练集和验证集按4∶1的比例进行分配,将每类样本的训练集数量初始设置为1 500张,每组实验增加500张。
图9
图10
实验表明,每类台风云图样本从1 500张增加到4 000张时,对T-typCNNs模型的分类性能均有所改善。尤其当每类有3 000张云图样本时,测试精度高达93.26%。但随着训练样本数不断增加,模型的测试精度有所下降并出现过拟合的趋势。可以得出结论,在一定范围内适当增加台风数据集的样本数量,可以提高T-typCNNs模型对台风云图的分类性能。
4 结 语
本文提出了一种基于参数迁移的网络自适应微调学习方法,将深度卷积神经网络参数迁移到台风云图数据集上,辅助完成台风强度等级分类任务。解决了气象领域小样本台风数据等级分类问题,为台风预测预报提供了一种辅助决策方法。
(1)将VGG16、InceptionV3和ResNet50 3种源模型迁移到小样本台风数据集上。通过较短的训练时间、较深的网络层数,训练出性能较好的分类模型。实验证明,迁移源模型整体网络结构和参数到台风数据集上能将精度提高7%。
(2)适配最佳迁移层数,将源模型按模块划分并迁移对应层参数到目标数据集上,对比子模块网络精度,找到能提取公共特征的最大卷积层数并冻结权重参数,剩余层参数在台风数据集上微调再训练。实验表明,从深度和速度上综合考虑,ResNet50模型具有最好的分类性能。
(3)通过冻结ResNet50部分层参数,并将剩余网络参数作自适应微调,本文构建了适用于台风小样本数据集的迁移预报模型T-typCNNs。该模型将台风数据集上训练出的精度从88.611%提高到91.134%,有效缓解过拟合现象。另外,本文发现在一定数量级范围内增加台风训练样本,有利于提高T-typCNNs迁移模型的分类性能。但随着样本数量的增加,模型分类精度有下降趋势。
(4)提出了适用于自建台风数据集的迁移学习方法,由于只针对台风数据集,当源域和目标域发生改变时,模型的鲁棒性可能有所降低,分析原因主要是由于源域和目标域的共同特征减少,导致模型的迁移性能下降,这也是今后重点研究的方向。但本文提出的迁移策略可对特定领域小样本数据集的迁移提供指导。在后期的研究中,将重点探究在迁移卷积神经网络时,如何通过域自适应方法来缓解域差异对分类精度的影响。
参考文献
Statistical Characteristics of Rapid Changes in the Intensity and Track of Tropical Cyclones in the South China Sea from 1949 to 2017
[J].廖菲,李文婷,张子然,
1949~2017年南海海域热带气旋强度和路径快速变化统计特征
[J].
Comparison of Tropical Cyclone Intensity Data in the Northwest Pacific
[J].西北太平洋热带气旋强度资料的对比
[J].
Analysis on the Disaster trend of typhoon and tide in south China sea
[J].我国南海沿海台风及暴潮灾害趋势分析
[J].
Research on Typhoon Intensity Prediction Statistical Model based on Meteorological Big Data
[J].基于气象大数据的台风强度预测统计模型研究
[J].
Research on Cloud Image Cloud Detection and Classification of Meteorological Satellites
[D].赵晓利. 气象卫星云图云检测及分类的研究
[D].
Adaptive Fuzzy Support Vector Machine for Classification of Clouds in Satellite Imagery
[J].面向卫星云图云分类的自适应模糊支持向量机
[J].
A Review of Real Time Marine Monitoring and Its Application in Typhoon Area
[J].台风海域实时海洋监测及其应用研究综述
[J].
Study on the Vertical Distribution of Cloud Properties in the Eye Sall and Surrounding Spiral Cloud Belt of Typhoon
[J].台风眼壁及周围螺旋云带云属性垂直分布研究
[J].
Tropical Cyclone Intensity Analysis Usingsatellite Data
[R].
Classification of Remote Sensing Image based on BP Neural Network based on Double Tree Complex Wavelet Decomposition
[J].基于双树复小波分解的BP神经网络遥感影像分类
[J].
Research and Application of Cloud Image Recognition and Ultra-short-term Direct Solar Radiation Prediction based on Neural Network
[D].赵亮亮.基于神经网络的云图识别与超短期直接太阳光辐射预测研究及应用
[D].
Remote Sensing Image Scene Classification based on Frequency Band Feature Fusion and GL-CNN. Remote Sensing Technology and Application, 2019, 34(4): 712-719. [崔先亮,,陈立福,邢学敏,等.
基于频带特征融合的GL-CNN遥感图像场景分类
[J].
Progress in Migration Learning Research
[J].迁移学习研究进展
[J].
Smoke Recognition Method based on Deep Migration Learning
[J]基于深度迁移学习的烟雾识别方法
[J].
Ship Target Detection based on Convolutional Neural Network for Remote Sensing Image
[J].黄洁
,基于卷积神经网络的遥感图像舰船目标检测
[J].
Research on Infraredimage Super-resolution Method based on Migration Learning
[J].基于迁移学习的红外图像超分辨率方法研究
[J].
Learning Transferable Features with Deep Adaptation Networks
[C]∥
On Automated Source Selection for Transfer Learning in Convolutional Neural Networks
[J].
The Typhoon Path Nowcasting Model based on LSTM Neural Network
[J].基于长短时记忆神经网络的台风路径临近预报模型
[J].
Very Deep Convolutional Networks for Large-scale Image Recognition
[J].
Rethinking the Inception Architecture for Computer Vision
[C]∥
Deep Residual Learning for Image Recognition
[C]∥
How Transferable are Features in Deep Neural Networks?
[C]∥
/
〈 |
|
〉 |
