深度学习U-Net方法及其在高分辨卫星影像分类中的应用
1.
2.
U-Net Neural Networks and Its Application in High Resolution Satellite Image Classification
1.
2.
通讯作者:
收稿日期: 2019-01-29 修回日期: 2020-04-29 网络出版日期: 2020-09-14
基金资助: |
|
Received: 2019-01-29 Revised: 2020-04-29 Online: 2020-09-14
作者简介 About authors
杨瑞(1993-),女,甘肃平凉人,硕士研究生,主要从事生态遥感研究E⁃mail:
关键词:
Keywords:
本文引用格式
杨瑞, 祁元, 苏阳.
Yang Rui, Qi Yuan, Su Yang.
1 引 言
深度学习作为神经网络的延伸,通过模拟大脑的学习过程,对输入数据进行由底到高层的特征提取,得到理想特征用于模式分类,进而增加分类的准确性[8]。深度学习用于处理声音、视频、图像、文本等非结构化的数据,在语音识别[9]、自然语言处理[10]、图像识别[11]等方面得到了广泛的应用。深度学习使计算机能够识别语音中所包含的信息。例如百度将深度卷积神经网络应用于语音识别研究,使得识别错误率下降10%左右[12]。自然语言处理采用多层一维卷积的结构[13],用于词性标注、分块、命名实体识别、语义角色标注等问题[14]。其中,图像识别是深度学习最早尝试的领域,主要包括物体检测和图像分类两个方面,LeCun等[15]提出的LeNet5 CNN在手写数字识别中的准确率达到了99.05%。
深度学习网络模型中卷积神经网络(CNN, Convolutional Neural Network)、深度置信网络(DBN, Deep Belief Networks)和全卷积神经网络(FCN, Fully Convolutional Network)等应用于高分辨率和高光谱遥感影像分类中。2015年Hu等[16]提出了一个五层的CNN模型,在光谱域对高光谱影像进行分类,并与传统的机器学习算法SVM相比较,结果表明基于CNN的分类精度更高,但该方法忽略了影像的空间信息。刘大伟等[17]利用深度学习网络模型DBN对高分辨率遥感影像进行基于光谱-纹理特征的分类,与SVM和CNN进行比较,该方法能够更好地提取目标地物本质特征,挖掘影像空间分布规律,提高分类精度。Maggiori等[18]对基于块的(patch-based)卷积神经网络和FCN两种遥感影像分类方法进行比较,结果表明,FCN的分类精度高于基于patch-based的分类精度,并且执行速度比patch-based快将近10倍。Zhang等[19-20]提出的CNN与多层感知器(Multi-Layer Perceptron, MLP)集成形成的MLP-CNN分类器和面向对象的卷积神经网络(OCNN)在遥感影像分类中均取得了很好的分类结果。
2 U-Net模型结构
U-Net模型是对FCN进行修改和扩展而得到的,包括编码路径(图1左侧)和解码路径(图1右侧)。编码路径用于提取特征,遵循传统卷积神经网络的结构,由两次卷积核大小为3×3的卷积层和步长为2的最大池化层组成,激活函数为线性整流函数(ReLU, Rectified Linear Unit),将以上过程重复4次,生成特征通道为512大小为10×10的特征图。在卷积过程中保留边界处的卷积结果,使得输出特征图的大小与输入的相同。解码路径用于对每个像元进行精确的定位,使得模型输出影像的大小等于输入大小,包括能够将特征图的大小增大一倍的上采样过程和特征图融合过程,上采样后得到的特征图的大小与编码路径中对应的特征图的大小相同,因此可将它们进行融合。在最后一层使用卷积核大小为1×1的卷积层,其激活函数为softmax,将每个32分量特征向量映射到所设定的类的数量。如图1为U-Net模型的结构。
图1
图2
U-Net模型使用交叉熵作为损失函数,来衡量模型输出值与真实值之间的差异,使用随机梯度下降算法(SGD, Stochastics Gradient Descent)来快速估计模型的权重参数。当样本数据集较少时,模型训练过程中容易出现过拟合现象,Dropout作为一种常用的正则化方法,通过随机丢弃得到各种子网络,可以有效抑制过拟合现象[25],同时U-Net模型中使用提前终止正则化方法,这种方法使用简便,不需要对原有的网络结构参数进行修改,并可以和其他的正则化方法一起使用。
3 样本选取和训练过程
3.1 训练样本选取
本文中使用的数据集是覆盖面积为3 km×3 km,像元大小为4 245×4 245的高分二号遥感影像,其样本集是通过野外调查与目视解译形成的,若直接将其输入到深度学习模型中会造成内存溢出,因此本实验中选取像元大小为160×160的影像块作为模型的输入。
样本选取包括规则格网选取、滑动窗口选取和随机选取三种方法,如图3所示。规则格网选取是在影像上按160×160的尺寸大小进行规则格网的裁剪。由于该方法在样本数量获取和地物间关系识别上的局限性,易造成模型分类结果的不准确。滑动窗口以160×160的尺寸对影像进行从左到右、从上到下以固定间隔进行裁剪获取样本数据,该方法展现了特征学习的全面性,但滑动间隔的大小难以确定,易造成数据的冗余或缺失。而随机选取同样采用160×160大小的窗口,对影像进行随机裁剪,简便高效的利用了影像信息,同时增强了样本的多样性。
图3
本文选用随机选取得到训练数据集,对标签数据的相同位置以同等大小范围进行裁剪,并利用规则格网对测试数据集进行选取。
3.2 网络训练过程
U-Net神经网络的训练包括前向传播和后向传播两个过程,前向传播预测结果,后向传播误差值。如图4即为U-Net网络训练过程的流程图。
图4
(1)将遥感影像与标签数据按照一定的样本选取方式分为训练数据、验证数据和测试数据,其中验证数据集是通过多次使用不断调整超参数的数据集。
(2)训练数据作为输入层,经过编码过程和解码过程的计算、转换后,得到预测结果。此过程即为前向传播。
(3)根据预测结果与标签数据定义损失函数,通过SGD优化算法不断地更新权值,使误差不断减小,提高分类精度,此过程为后向传播,其中,训练过程中训练数据集和验证数据集的精度和误差如图7所示。
图5
图5
GF-2标准假彩色与分类结果图
Fig.5
GF-2 standard false color image and classification results
图6
图6
研究区域的典型区域(A、B、C)分类结果对比
Fig.6
Three typical image subsets (A, B and C) with their classification results in study area
图7
图7
数据集损失函数和精度关于迭代次数的变化曲线
Fig.7
The curves of loss function and accuracy versus iteration epochs
(4)若随着训练过程的进行,训练集上的误差减小,而验证集上增大,说明网络训练过程中出现过拟合的现象,需要在网络中加入正则项,例如Dropout、提前终止等。
4 实验分析
4.1 研究区概况
黑河是我国西北干旱地区第二大内陆河流域,总面积为14.3万km2[26]。由于人类活动对黑河流域水土资源的过度开发利用,使得黑河下游的生态环境恶化,严重影响下游及周边地区的环境和生态安全[27]。内蒙古额济纳旗胡杨林自然保护区位于额济纳旗的中心位置—额济纳绿洲。其地理范围为101°03′~101°17′ E,41°30′~42°07′ N,总面积为26 253 km2,核心区面积为8 774 km2[28]。核心区内气候极度干旱,年均降水量为37.9 mm,潜在蒸发量为3 700~4 000 mm,相对湿度不足35%,年风速4.4 m/s[29]。核心区内生态结构简单,植被种类单一,以乔、灌、草为主,代表性的植物有胡杨、梭梭和沙枣等乔木以及柽柳、黑果枸杞、白刺和骆驼刺等灌木,苦豆子、芦苇、芨芨草和骆驼蓬等草类[30]。土地覆被类型较单一,类型之间特征差异明显,不同类型的景观斑块特点突出,纹理特征不同等特点有利于深度学习算法的检验,同时快速生成高精度土地覆被对保护和恢复下游脆弱的生态环境具有重要的意义。
4.2 实验数据及网络结构参数
本次实验使用的数据为额济纳旗胡杨林国家级自然保护区核心区2017年6月27日高分二号影像。高分二号(GF-2)卫星是我国目前分辨率最高的民用陆地观测卫星,星下点空间分辨率可达0.8 m。其全色波段影像的空间分辨率为1 m,波长范围为0.45~0.90 μm。多光谱影像共包含4个波段,分别为蓝、绿、红、近红外,波长范围为0.45~0.52 μm、0.52~0.59 μm、0.63~0.69 μm、0.77~0.89 μm。根据研究区的土地覆被类型以及GF-2遥感影像的特点,将训练数据集中的遥感影像的每个像元标记为以下5类:胡杨、柽柳、耕地、草地和裸地。
实验的训练过程中使用图1所示的U-Net模型。在SGD优化算法中,小批量(mini-batch)的大小为32,学习率(learning rate)为0.000 01,动量(momentum)为0.9,损失函数为交叉熵函数。本文通过标准差为
4.3 实验结果分析
为了评估遥感影像分类的精度,同时使用SVM、面向对象和U-Net模型对研究区内如图5(a)的高分二号遥感影像进行分类,其中SVM和面向对象的方法使用的样本与U-Net方法相同,分类的结果分别如图5(b)、(c)和(d)所示。SVM能够将低维线性不可分问题转换为高维线性可分问题,通过设置惩罚因子,解决个别离群值的类别归属问题,实现地物的自动分类。基于SVM的遥感影像分类的结果中可以看出有明显的漏分和错分现象,尤其是在耕地与裸地、胡杨与柽柳以及胡杨与裸地之间。面向对象的方法通过影像分割和影像分类两个步骤对影像实现分割级的分类,实验中的分割算法选用多尺度分割,分类器选用SVM。由面向对象的分类结果可以看出,草地和耕地的分类结果较好,但在胡杨和柽柳间有明显的错分。U-Net作为一种深度学习网络模型,具有强大的函数表达能力,能够学习每种地物目标的光谱特征和纹理特征,在复杂地物类型分类上有较好的效果,其草地、胡杨的分类精度明显优于SVM和面向对象。
从定性的角度分析,如图6为基于SVM、面向对象和U-Net对额济纳旗高分二号遥感影像分类的局部结果图。第Ⅰ组的分类结果,三种分类方法中U-Net对胡杨的分类精度最高,能准确提取胡杨的细节信息,面向对象的分类方法不能正确地识别胡杨和柽柳,SVM将胡杨阴影错分为柽柳,如图6(b)、(c)的A部分。第Ⅱ组的分类结果中,由于部分密集区域长势较好的柽柳被错分为胡杨,U-Net模型对柽柳的分类效果最差,SVM和面向对象的分类方法能准确提取柽柳的边界,但在柽柳内部部分被错分为胡杨,如图6(b)、(c)的B部分。第Ⅲ组的分类结果中,三种方法对草地的分类精度均较高,但SVM和面向对象的分类方法将草地的边界部分错分为柽柳,如图6(b)、(c)的C部分。综上所述,基于U-Net模型的分类结果相较于其他三种方法更接近地面真实情况。
由表1从定量的角度分析,基于U-Net模型的分类效果最好,其次是面向对象,传统的机器学习算法SVM的分类结果较差。U-Net模型的总体分类精度相较于SVM和面向对象提高了6.137%和2.972%。基于U-Net模型的分类结果中,裸地的分类精度最高为90.09%,其次是草地分类精度为89.59%,胡杨和耕地的分类精度较高,柽柳的分类精度最低为71.01%,SVM对柽柳的分类精度最高,面向对象对耕地的分类精度最高,但U-Net模型对裸地、胡杨和草地三种地物的分类精度均高于其他方法。综上所述,验证了深度学习U-Net模型对高分辨率遥感影像分类的可靠性。
表1 分类结果精度评价表
Table 1
深度学习 网络模型 | SVM/% | 面向对象/% | U-Net/% |
---|---|---|---|
Kappa | 0.726 4 | 0.753 0 | 0.795 6 |
裸地 | 74.70 | 84.34 | 90.09 |
胡杨 | 75.33 | 81.33 | 86.50 |
耕地 | 76.36 | 83.06 | 82.56 |
柽柳 | 82.35 | 73.99 | 71.01 |
草地 | 85.15 | 87.31 | 89.59 |
总体精度 | 79.028 | 82.052 | 85.024 |
为了进一步评价U-Net卷积神经网络的分类结果,训练数据集和验证数据集在训练过程中误差和精度随迭代次数变化曲线如图7所示。验证数据集的精度反应网络模型的泛化能力,精度越高,泛化能力越好。随着训练迭代次数的增加,训练集的误差越小,说明神经网络被训练的越好。在迭代次数超过1万次之后,训练集和验证集的精度趋于稳定。
高分辨率遥感影像中,同类地物间光谱特征差异大,不同地物类别间光谱特征差异小,存在同物异谱和异物同谱的现象,使其对高分辨率遥感影像的分类难度增大。面向对象和基于SVM方法普遍应用于遥感影像分类中,这些方法的分类精度随着分类器的选择和参数的设定产生很大差异,使其在分类过程中存在人为干预的局限性。然而基于深度学习的网络模型能够自动识别地物目标所包含的信息,并能自主对模型参数进行改进,在遥感影像分类中具有明显的优势。
5 结 论
本文使用了一种适用于高分辨率遥感影像分类的U-Net模型结构,该模型采用卷积和池化提取特征,通过卷积和上采样精确定位,训练过程中通过梯度递减算法不断更新权值,提高分类精度。此外,在构建模型时需考虑高分辨率遥感影像的分类特点,选择合理的滤波器的数量和大小,进行了基于U-Net模型的黑河下游额济纳旗胡杨林核心保护区的高分二号遥感影像分类,实验结果表明:
(1)基于U-Net卷积神经网络的分类方法的精度较高,其中,总体精度为85.024%,Kappa系数为0.795 6。
(2)与机器学习方法SVM和面向对象的方法相比较,U-Net方法的分类精度更高。SVM和面向对象方法有明显的错分漏分现象,尤其是在耕地与裸地、胡杨与柽柳以及耕地与裸地之间。
(3)U-Net神经网络能够更好提取地物本质特征,更准确挖掘高分遥感影像的空间分布特征、纹理特征以及光谱特征,从而提升分类的准确性。
作为一门新兴的技术,通过研究表明,基于深度学习的方法在遥感影像分类方面具有巨大的潜力,但是仍然有很多方面需要改善。深度学习网络结构的训练通常需要大量的训练样本数据,由于遥感影像的样本数据有限,容易出现过拟合的现象,因此,今后的研究中,可以进一步研究训练样本扩容的方法。深度学习的网络结构多种多样,然而,目前只能凭借经验和多次试验来选择最优的网络结构和参数,使得基于深度学习的遥感影像分类的效率降低。将如何快速准确地确定网络结构的参数也作为下一步研究重点。
参考文献
Research for Classification of High Spatial Resolution Remotely Sensed Imagery
[D].
高空间分辨率遥感影像分类研究
[D].
Classification of Mediterranean Crops with Multisensor Data: Per-pixel Versus Per-object Statistics and Image Segmentation
[J].
Support Vector Machines for Hyperspectral Remote Sensing Classification
[C]//
A Relative Evaluation of Multiclass Image Classification by Support Vector Machines
[J].
A Comparative Study of SVM and ANN in Multispectral Image Classification
[J].
SVM和ANN在多光谱遥感影像分类中的比较研究
[J].
Reducing the Dimensionality of Data with Neural Networks
[J].
Deep Speech: Scaling up End-to-end Speech Recognition
[J].
A Latent Semantic Model with Convolutional-pooling Structure for Information Retrieval
[C]//
Backpropagation Applied to Handwritten Zip Code Recognition
[J].
Application of Convolution Neural Network in Classification of High Resolution Remote Sensing Image
[J].
卷积神经网络在高分遥感影像分类中的应用
[J].
Natural Language Processing (Almost) from Scratch
[J].
A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning
[C]//
Generalization and Network Design Strategies
[C]//
Deep Convolutional Neural Networks for Hyperspectral Image Classification
[J].
Research on Classification of High Resolution Remote Sensing Image based on Deep Learning
[J].
基于深度学习的高分辨率遥感影像分类研究
[J].
Fully Convolutional Neural Networks for Remote Sensing Image Classification
[C]//
A Hybrid MLP-CNN Classifier for very Fine Resolution Remotely Sensed Image Classification
[J].
VPRS-based Fegional Decision Fusion of CNN and MRF Classifications for very Fine Resolution Remotely Sensed Images
[J].
U-net: Convolutional Networks for Biomedical Image Segmentation
[C]//
Deepunet: A Deep Fully Convolutional Network for Pixel-level Sea-land Segmentation
[J].
Road Extraction by Deep Residual U-Net
[J].
Computation of Optical Flow Using a Neural Network
[C]//
Squared Error Training: a Theoretical and Experimental Comparison
[C]//
. HiWATER: An Integrated Remote Sensing Experiment on Hydrological and Ecological Processes in the Heihe River Basin
[J].
黑河流域生态—水文过程综合遥感观测联合试验总体设计
[J].
The Change of Land Cover Land Use in Ejina Oasis over 20 Years
[J].
额济纳绿洲近20年来土地覆被变化
[J].
Populus Euphratica in Ejina National Nature Reserve
[J].
阿拉善戈壁上的绿色明珠——额济纳胡杨林国家级自然保护区
[J].
Enviromental Changes of Ejina Rrgion in the Lower Reaches of Heihe River
[J].
黑河下游额济纳地区的环境演变
[J].
/
〈 |
|
〉 |
