基于卷积神经网络的面向对象露天采场提取
1.
2.
3.
Object-oriented Open Pit Extraction based on Convolutional Neural Network
1.
2.
3.
通讯作者:
收稿日期: 2019-12-14 修回日期: 2021-01-04 网络出版日期: 2021-05-24
基金资助: |
|
Received: 2019-12-14 Revised: 2021-01-04 Online: 2021-05-24
作者简介 About authors
胡乃勋(1993-),男,黑龙江佳木斯人,硕士研究生,主要从事高分辨率遥感地学应用研究Email:
关键词:
Keywords:
本文引用格式
胡乃勋, 陈涛, 甄娜, 牛瑞卿.
Hu Naixun, Chen Tao, Zhen Na, Niu Ruiqing.
1 引 言
露天开采是一种严重破坏自然环境的行为,容易造成水污染、空气污染、固体废物污染和地质灾害等[1]。以露天采场监测为主的矿山环境监测一直是矿山治理的重中之重。最早的矿山环境遥感监测主要是人工目视解释和野外调查相结合[2],工作量大且成本较高,同时由于解译人员的不同,其准确性和可信度差异较大,不能快速准确地提供可靠的数据。此后,计算机领域发展迅速,各种机器学习算法相继提出[3],并开始应用于数据挖掘[4]、医学图像分析[5]、生物信息学[6]等领域,也在遥感图像处理领域为矿山信息提取提供了新的方向。2004年,陈华丽等[7]在对湖北省大冶市矿区的土地类型进行提取时,利用基于知识的决策树方法取得了良好效果。
随着机器学习算法研究的不断深入,深度学习作为实现机器学习的关键技术也逐渐进入大众的视野。2012年,在ImageNet大规模视觉识别挑战赛中,Krizhevsky等[11]使用AlexNet结构以明显的优势摘得桂冠,开启了深度学习领域的热潮。AlexNet属于卷积神经网络(Convolutional Neural Networks, CNN)的一种,早期的卷积神经网络结构可以追溯到1989年,LeCun等[12]提出LeNet-5网络结构,并在手写体数字的识别问题中取得了优异的结果。LeNet-5是最经典的卷积神经网络,近年来在各领域广泛使用的AlexNet、VGG[13]、Google-Net[14]等网络就是以LeNet-5为基础改进得到的。
研究选取高分二号(GF-2)遥感影像作为实验数据,利用卷积神经网络算法与面向对象分类思想相结合的方法对采矿区范围内的土地占用类型进行提取,以探索深度学习方法在矿山环境遥感监测领域的应用效果,为矿山环境治理提供及时、准确的数据支持。
2 研究区及数据源
图1
GF-2遥感影像全色、多光谱波段融合后分辨率可达1米,包含红、绿、蓝、近红外4个波段,成像整体清晰可辨,可解译程度较高。另有其他矿山辅助数据包括禹州市矿山地貌景观破坏遥感解译数据、行政区划数据以及土地利用数据。禹州市矿山地貌景观破坏遥感解译数据以室内目视式解译为基础,再通过野外现场核查结果进行修正,可视为矿区开发占地类型的真值。数据以矢量图斑的形式对禹州市境内的矿区各种开发占用情况的类型、位置、大小、状态等信息进行了说明,并建立了露天采场的解译标志。露天采场一般呈浅色调、基岩裸露、无植被、采场外部边缘常伴有阶梯状剥离台阶附近分布有排土场、废石渣堆,且有道路相通为特征,如图2、图3所示。由矿山遥感解译数据可知,研究区内部共有大小露天采场105处,总面积935.84 hm2,占研究区面积的9.12%。其中面积最大为64.59 hm2,最小为0.12 hm2。
图2
图3
3 研究方法
研究的主要流程为GF-2影像预处理、面向对象的图像多尺度分割、对象特征值提取、面向对象结合CNN进行露天采场提取(图4)。
图4
3.1 面向对象的多尺度分割
分形网络演化方法(Fractal Net Evolution Approach,FNEA)是一种应用广泛的多尺度分割算法,在遥感影像的分割应用中,考虑了实际地表多层次、多格局的特征,使用多种尺度来构建分割等级,逐级完成分割与信息提取。克服单一分割尺度不能对所有类型进行提取的局限性[20]。其基本思想可以描述为一种自下向上的区域合并技术。从像素层开始,遵循局部异质性最小准则,将临近像元组合为一个影像对象,对象内部赋予统一属性。所产生的对象将代替像素作为影像的最基本单元,重复合并操作,过程中保持异质性的最小增长,如果最小增长超过定义的阈值,则该过程停止。
异质性
其中:权重参数
其中:
在实际应用中,需要设置光谱、形状因子权值和紧致度、平滑度因子的权值。另需设置尺度参数
3.2 对象特征选择
基于影像对象进行面向对象的分类操作,需要对每个对象进行特征计算,旨在找出对象内具代表性、能有助于判别地物类型的特征同时减少数据的冗余。高分影像分割产生的影像对象的特征主要包括光谱特征、纹理特征、几何特征[21]。
光谱特征可以表征实际地物在遥感影像中的电磁辐射规律,常见表达方式是遥感影像的波段或者灰度值,是遥感影像区分不同地类的最基本特征之一。光谱特征主要包括均值、标准差、亮度、比率等。均值(Mean)表示对象在某一波段中包含的所有像素的光谱平均值。标准差(Stdv)表示对象内部所有像素的标准偏差。亮度(Brightness)表示对象在总体波段的光谱均值。比率(Ratio)表示图像对象层的平均值除以所有层平均值的总和。
高空间分辨率影像除了具有光谱信息外,还有丰富的纹理特征,它对于影像中的微结构表达更明晰,这对于纹理复杂的矿山地物,是分类的重要依据。本文使用灰度共生矩阵作为计算对象纹理特征的依据[22],主要包括能量、熵、惯性矩、相关系数和均值。能量(Angular Second Moment,ASM)表示图像灰度分布均质性和纹理的粗细程度。如果ASM较大,则表示对象的纹理比较细致、均匀,否则,则表示对象的纹理粗糙、集中。熵(Entropy)是对象内包含的信息量,也是对纹理信息的表达,表示纹理复杂度。惯性矩(Homogeneity)是对象内部纹理的同质性以及变化的程度,值越大表示对象内部纹理越均匀。相关系数(Correlation)表示图像纹理的一致程度。均值(Mean)表示对象的灰度均值。
研究中使用的几何特征是形状指数、圆度、长宽比、紧致度、主方向、非对称性和密度。形状指数(Shape index)是由每个图像对象的边长与4倍的面积平方根的相除计算得到的。圆度(Roundness)是根据包围对象的椭圆和由对象包围的椭圆的差异来计算的。长宽比(Length-width ratio)是物体的长度和宽度的比率。紧致度(Compactness)通过求取对象的周长和面积来表征对象形状的饱满程度。主方向(Main direction)表示纹理的主要走向。非对称性(Asymmetry)描述了图像对象的相对长度。密度(Density)描述对象中的像素分布。最“密集”的形状是正方形;相反的,对象越狭长,密度就越低。
3.3 卷积神经网络(CNN)
CNN是深度学习的典型算法之一现阶段被广泛应用于计算机视觉、目标检测、自然语言处理等领域[23]。CNN的结构主要由卷积层,池化层和全连接层组成。
卷积层的主要作用是特征提取。卷积层利用卷积核(滤波器)对待提取内容进行卷积运算,提取局部特征。卷积后所得到新层的每一个神经元与前一层的局部感受区相连,以减少连接的数目,新层将这些局部信息综合起来就得到全局的信息,如图5所示。池化层常位于卷积层之后,经过卷积层得到的特征依然存在维数过大和信息冗余等问题,用最大池化或平均池化方法,进行特征压缩(也称下采样),保留主要特征。最后经过全连接层将数据展开成普通的全连接神经网络层并输出。
图5
在使用CNN网络的同时,引入了面向对象和特征提取的方法,将影像对象的特征值作为网络的输入层。考虑到输入层特征的数量多少对网络结构中层数的限制,所以选择了网络结构相对简单的LeNet-5网络为基础并进行改进,改进主要包括3个方面。首先是对输入层的改进。CNN网络常被应用于图像级的分类问题中,输入层通常以矩阵的形式存在。将影像对象的特征值作为输入,输入层为一维数组,采用一维卷积的形式搭建CNN网络,对图像内部每一个对象预测类别,不仅实现了图像内的分类,同时降低了计算机的计算成本,节省了时间。二是本研究中使用的数据集相对较小,在网络训练过程中出现了过拟合现象。所以在模型中增加随机失活(Dropout)层,来降低网络参数的数量,避免出现过拟合现象,保证模型的泛化能力[24]。Dropout层需设定参数P,在学习过程中按一定的概率P随机屏蔽掉一部分神经元,只训练保留下来的神经元对应的参数,降低节点间的相互依赖性从而实现网络结构的优化。三是CNN网络中各层之间的激活函数选用ReLu函数。ReLu函数的输出为线性且具有分段性质,不需要指数运算,计算复杂度低,更易学习优化。
图6
(1)卷积层C1和池化层P1。卷积层C1的通道数为32,卷积核大小为6×1,步长为1。池化层P1采用最大池化方法来提取显著特征,池的大小为2×1,步长为1。
(2)卷积层C2和池化层P2。卷积层C2的通道数为64,卷积核大小为3×1,步长为1。池化层P1采用最大池化方法来提取显著特征,池的大小为2×1,步长为1。
(3)全连接层F1、Dropout层。通过F1层将卷积结果展平,再利用Dropout层随机抑制部分神经元。Dropout层参数设置为0.5。
(4)全连接层F2。有7个神经元,与softmax分类器相连,实现分类并作为输出层。
3.4 支持向量机(SVM)
支持向量机(Support Vector Machines, SVM)是建立在统计学习理论、构造风险最小理论和VC维理论基础上的一种机器学习算法。1995年,Cortes等[26]提出了非线性SVM并将其应用于手写数字识别问题,研究结果表明SVM具有分类器结构简单、训练难度低、收敛速率快、分类精度高等优点。SVM开始得到了越来越多的关注和应用,在许多领域被证明具有良好的泛化能力。对于线性不可分的情况,它的核心思想是通过某种事先选择的非线性映射(核函数)将输入向量映射到一个高维特征空间,在这个空间构造最优分类超平面,使得两组数据尽可能正确的分开,同时使分类间隔最大。
本研究中SVM的核函数选择为高斯核函数(Radial Basis Function, RBF),决策函数类型使用一对多法(One-Versus-Rest, OVR),惩罚系数C和Gamma经过网格参数寻优后分别为1和0.045。
4 结果与讨论
4.1 影像分割与特征提取
根据研究区实际的露天矿区开发占地信息,所需要提取的地物类型共有7大类,主要包括:露天采场、矿山堆积、建筑物、道路、植被、裸土和水体。使用eCognition软件平台进行影像的分割过程,针对不同地物类型,选用多尺度分割方法进行影像分割。为保证分割结果的质量,分割处理过程中循以下两条原则:同一对象内部像元间应具有良好的同质性;不同对象之间要具有良好的异质性。在经过大量实验并对其效果进行对比后,确定了各级的分割尺度、形状和光谱因子权值以及紧致度、平滑度因子的权值,形成最终的分割规则集(表1)。
表1 分割尺度和权重值
Table 1
分割对象 | 分割尺度 | 形状/光谱权值 | 紧致度/平滑度权值 |
---|---|---|---|
水体、植被 | 150 | 0.1/0.9 | 0.5/0.5 |
露天采场、矿山堆积、裸土 | 90 | 0.4/0.6 | 0.5/0.5 |
道路、建筑 | 50 | 0.4/0.6 | 0.5/0.5 |
最后经过光谱差异分割处理,合并相邻且光谱差异相近的对象,得到最终的影像对象96 708个(图7)。结合禹州市矿山地貌景观破坏遥感解译数据和土地利用数据制作样本集,按照质心包含的原则从全部影像对象选取了14 636个对象作为总样本并赋标签。将总样本按照1∶1的原则等分为两部分,即7 318个影像对象组成的训练网络结构的训练、测试样本集,另7 318个影像对象组成的精度评价的验证样本集。
图7
对分割所产生的影像对象,从光谱特征、纹理特征与几何特征3个角度选取其特征值,并进行计算(表2)。
表2 影像对象的特征选择
Table 2
对象特征域 | 特征 |
---|---|
光谱特征 | 标准差、均值、比率、亮度 |
纹理特征 | 能量、熵、惯性矩、相关系数、均值 |
几何特征 | 形状指数、圆度、长宽比、紧致度、主方向、非对称性、密度 |
4.2 基于卷积神经网络的面向对象分类
训练、测试样本集共有影像对象7 318个,其中露天采场2 153个,矿山堆积1 203个,建筑物1383个,植被1 026个,道路899个,水体149个,裸土505个。按照7∶3的原则随机划分成5 123个训练样本和2 195个测试样本,使用训练样本训练CNN模型,测试样本计算模型精度。针对多分类问题,选择交叉熵损失函数(Categorical Crossentropy Loss)作为损失函数,并利用Adam优化器对模型进行参数寻优。在训练过程中,首先对未添加Dropout层的网络模型进行训练,迭代次数设为100次,统计每次迭代后的模型精度,得到模型的训练过程曲线(图8)。从图中可知,随着训练次数的增长,模型的测试样本准确率(test_acc)也随之上升,迭代训练达到第20次时,模型的精度趋于平稳,最终稳定在0.89。但是模型的测试样本损失率(test_loss)在训练过程中呈先下降后升高的趋势,这是典型的过拟合现象,该条件下的网络模型无法进行分类工作。为解决过拟合问题,使用添加了Dropout层的网络模型再次训练,得到模型的训练过程曲线(图9)。从图中可知,同样的100次迭代次数,在迭代训练达到第35次时,模型的测试样本准确率开始趋于平稳,最终得到稳定在0.87的精度。同时测试样本损失率也趋于平稳,未出现过拟合问题,总体上达到了很好的训练效果。
图8
图9
将训练得到的CNN网络结构应用于全部96 708个对象,对其进行预测,得到最终的分类结果(图10)。
图10
4.3 基于支持向量机的面向对象分类
为了判断CNN的分类效果,同时使用SVM与面向对象相结合进行研究,得到SVM的分类结果并与CNN进行比较。实验流程中所涉及到的影像分割、特征计算和样本选取均与CNN分类过程相同,最后得到0.82的测试样本精度。将分类器应用于全部96 708个对象,对其进行预测,得到SVM的最终分类结果(图11)。
图11
4.4 分类结果对比
在研究区内选取典型地物区域,结合现有的矿山地质环境破坏数据,对局部分类效果进行对比,结果如图12所示。
图12
两种方法在总体可视化上均表现出较好的分类效果,均可对露天采场主体及周围地物进行提取。但在细节上,CNN的分类效果要明显优于SVM。图12中,虚线所包围的区域是通过目视解译和野外现场验证的露天采场,可视为“真值”。将图中Ⅰ、Ⅱ、Ⅲ 3处所对应的两种方法下的分类结果进行放大对比。从Ⅰ区域可以看出,对于露天采场错分至其他类别的情况,CNN明显少于SVM。相应地,从Ⅱ区域可以看出,其他类别错分为露天采场的现象,CNN也明显优于SVM。在Ⅲ区域,露天采场面积相对较小且存在停产、废弃的现象,影像上整体表现的特征与周围地物相近,CNN在此种情况下的提取效果同样优于SVM。因此,在对矿区土地分类、提取露天采场的位置和面积甚至确定露天采场的生产状态等任务时,CNN的效果都要优于SVM。
4.5 精度评价
表3 CNN/SVM分类结果精度评价混淆矩阵
Table 3
露天采场 | 道路 | 水体 | 植被 | 建筑物 | 矿山堆积 | 裸土 | 小计 | |
---|---|---|---|---|---|---|---|---|
露天采场 | 1 948/1 822 | 21/24 | 5/38 | 0/0 | 47/96 | 85/103 | 1/1 | 2 107/2 084 |
道路 | 25/93 | 911/855 | 1/0 | 0/2 | 30/90 | 8/20 | 2/5 | 977/1 065 |
水体 | 15/4 | 0/0 | 117/78 | 0/0 | 0/1 | 1/0 | 0/0 | 133 |
植被 | 3/4 | 0/2 | 0/2 | 991/990 | 3/19 | 0/4 | 4/11 | 1 001/1 032 |
建筑 | 42/115 | 16/82 | 0/5 | 2/1 | 1 873/1 776 | 4/29 | 2/1 | 1 939/2 009 |
矿山堆积 | 149/156 | 36/21 | 0/1 | 0/2 | 44/16 | 489/436 | 12/27 | 730/659 |
裸土 | 17/5 | 3/3 | 1/0 | 5/3 | 3/2 | 9/4 | 393/369 | 431/386 |
小计 | 2 199/2 199 | 987/987 | 124/124 | 998/998 | 2 000/2 000 | 596/596 | 414/414 | 7 318/7 318 |
经混淆矩阵计算,CNN的总体分类精度为91.86%,Kappa系数为0.90,其中露天采场的分类使用者精度和生产者精度分别为88.59%和92.45%。这4个精度评价指标均高于SVM的结果(表4)。
表4 CNN与SVM露天采场分类结果精度评价
Table 4
OA | Kappa | UA | PA | |
---|---|---|---|---|
CNN | 91.86% | 0.90 | 88.59% | 92.45% |
SVM | 86.44% | 0.83 | 82.86% | 87.43% |
露天采场是矿山活动中破坏环境最为严重的行为,对其做到准确的提取也是矿山监测的重中之重。CNN的分类结果对露天采场的生产者精度达到了88.59%,使用者精度为92.45%。SVM的分类结果对露天采场的生产者精度和使用者精度分别为82.86%和87.43%,两项指标差距较大。说明SVM的分类结果中存在更多的错分现象,从SVM的混淆矩阵可以看出,建筑物和矿山堆积两类地物中有大量的对象被错分为露天采场。同样的情况在CNN中就得到了很好的控制。
4.6 扩展实验
图13
图14
5 结 论
以提取矿区露天采场为出发点展开研究,利用GF-2遥感影像,结合面向对象分类的思想,分别构建了基于卷积神经网络和SVM的露天采场提取模型,在此基础上提取了河南省禹州市以露天采场为主的矿区占地信息,利用OA、Kappa、UA和PA对提取结果进行精度评价和比较。得出以下结论:
(1)将深度学习算法应用于矿山环境监测领域。构建了卷积神经网络模型并应用于矿山信息提取。利用混淆矩阵计算得到总体精度为91.86%,Kappa系数为0.90。露天采场的生产者精度达到了88.59%,使用者精度为92.45%,具有较好的分类效果。
(2)CNN的分类效果明显优于SVM。对比两种方法的精度评价指标,CNN算法的总体精度和Kappa系数相比于SVM 算法分别提升5.42%和0.07。露天采场的使用者精度和生产者精度CNN算法也均高于SVM算法。在结合高分辨率影像和野外实测数据分析时,CNN算法的结果也更接近真实矿山环境。表明基于卷积神经网络的面向对象的露天采场提取方法在矿山地质环境检测中优势和准确性,可以为矿山环境治理提供快速、可信度高的技术支持。
(3)CNN网络模型具有一定的泛化能力,在变换研究区的分类过程中仍得到了良好的分类精度。证明了本研究方法的可推广性。
参考文献
The Pressure Exerted on the Natural Environment in the Open Pit Exploitation Areas in Oltenia
[J]. ,
Advances in Remote Sensing-based Detecting of Mine Exploitation and Mine Environment
[J]. ,
矿山开发及矿山环境遥感探测研究进展
[J]. ,
Deep Learning: Yesterday, Today, and Tomorrow
[J]. ,
深度学习的昨天、今天和明天
[J]. ,
A Survey of Machine Learning Algorithms for Big Data
[J]. ,
大数据下的机器学习算法综述
[J]. ,
The Study of SVM-based Medical Image Classification
[D].
基于SVM方法的医学图像分类研究
[D].
Machine Learning Methods and Their Applications in Bioinformatics
[D].
机器学习方法及其在生物信息学领域中的应用
[D].
The Application of The Knowledge-based Decision Tree Classification Method to The Extraction of Land Types in Mining Areas: A Case Study of Daye Area, Hubei Province
[J]. ,
用基于知识的决策树方法分层提取矿区土地类型——以湖北大冶为例
[J].,
Several Cutting-edge Scientific Issues of High-resolution Earth Observation
[J]. ,
高分辨率对地观测的若干前沿科学问题
[J]. ,
Multiresolution Segmentation: An Optimization Approach for High Quality Multi-scale Image Segmentation
[C]∥
Application of Object-oriented Combined SVM in Information Extraction of Open-pit Mine
[D].
面向对象结合支持向量机(SVM)在露天矿区信息提取中的应用研究
[D].
ImageNet Classification with Deep Convolutional Neural Networks
[J]. ,
Handwritten Digit Recognition-Applications of Neural Network Chips and Automatic Learning
[J]. ,
Very Deep Convolutional Networks for Large-scale Image Recognition
[J]. ,
Going Deeper with Convolutions
[C]∥
Cement Plant Detection on Satellite Images Using Deep Convolution Network
[J]. ,
深度卷积网络卫星图像水泥厂目标检测
,
Extraction of Urban Impervious Surface from High-resolution Remote Sensing Imagery based on Deep Learning
[J]. ,
基于深度学习模型的城市高分辨率遥感影像不透水面提取
[J]. ,
Fine Land Cover Classification in an Open Pit Mining Area Using Optimized Support Vector Machine and WorldView-3 Imagery
[J]. ,
An Improved GrabCut Method based on a Visual Attention Model for Rare-earth Ore Mining Area Recognition with High-resolution Remote Sensing Images
[J]. ,
Ecological Compensation:the Need for Mineral Resources Exploitation and Environmental Restoration of Henan Province
[J]. ,
生态补偿:河南矿产资源开发与环境修复的需求
[J]. ,
Multi-resolution, Object-oriented Fuzzy Analysis of Remote Sensing Data for GIS-ready Information
[J]. ,
Multiscale Texture and Shape Feature Extraction and Object-oriented Classification for very High Resolution Remotely Sensed Imagery
[D].
高分辨率遥感影像多尺度纹理、形状特征提取与面向对象分类研究
[D].
Object-oriented Landslide Mapping Using ZY-3 Satellite Imagery, Random Forest and Mathematical Morphology, for the Three-Gorges Reservoir, China
[J]. ,
Convolutional Networks and Applications in Vision
[C]∥
Dropout: A Simple Way to Prevent Neural Networks from Overfitting
[J]. ,
/
〈 | 〉 |