深度残差神经网络高分辨率遥感图像建筑物分割

图1 建筑物分割流程图

Fig.1 Flow diagram of building segmentation

建筑物分割的实质是建立一个从遥感图像I到分割结果I_s之间的端对端的（End-to-End）映射关系f(·)。由于输入图像I的维度高、背景复杂且建筑物外形结构复杂多变，一般情况下f(·)是一个高维非线性模型，难以一次性建立I_s=f(I)的映射关系，f:g×c→g×2。因此，将该过程分为两个步骤：首先提取特征，建立特征空间；然后在特征空间的基础上构建合理的分割映射模型f_H(·)，完成建筑物的分割。

设建立分割模型的特征空间为H=h₁,h₂,…,h_n⊂Rⁿ^×^m，则从I到H之间同样存在一个映射关系 $f_{c} (\cdot)$ ，f_c:g×c→n×m，完成图像的特征提取，且有 $H = f_{c} (I)$ 。显然从特征空间到分割结果之间的映射模型为 $f_{H} (\cdot)$ ，f_H:n×m→g×2，实现建筑物分割 $I_{s} = f_{H} (H)$ 。

随着遥感图像分辨率的不断提高，建立图像特征空间与建筑物之间的映射模型存在两个挑战性问题：

（1）特征空间的维度大幅提升。对于同一建筑物而言，遥感图像分辨率的提高意味着表示该目标的像素必然增加。若I⊂R^g^×c仅表示建筑物，则g一定随分辨率提高而增大。这必然使得遥感图像到分割结果之间的映射关系I_s=f(I)呈现高维特性。

同时，分辨率的提升，使得遥感图像的结构、纹理、光谱等信息更加丰富，可被用于有效表征建筑物的特征数量必然增多，即遥感图像特征空间H的维度大幅增加。这必然使得人工构建 $f_{c} (\cdot)$ 和 $f_{H} (\cdot)$ 更加困难。这也是传统遥感图像分割方法分割精度不高、泛化能力低，甚至失效的主要原因之一。

（2）映射模型的非线性关系更加复杂。在低分辨率遥感图像中，一个建筑物可能只有几个或者几十个像素点表征，可通过特定的光谱信息（或灰度信息）直接建立简单的分割模型 $f_{H} (\cdot)$ 。而在高分辨率遥感图像中，特征空间H维度增大，特征变量（如灰度、信息熵、边缘信息等）之间往往相互耦合、特征变量与分割目标之间呈现强非线性关系。这必然导致手工建立的分割模型 $f_{H} (\cdot)$ 无法准确描述图像与目标之间的关系。

3 本文算法架构及实施技术

3.1　算法总体框架

深度学习是通过大量样本的训练，使被训深度神经网络逼近真实模型I_s=f(I)，无需中间过程，从而可实现从输入图像到分割结果间端对端的任务模式。本文提出的高分辨率遥感图像建筑物分割深度学习框架如图2所示。

图2

图2 遥感图像建筑物分割深度学习框架

Fig.2 Deep learning framework of building segmentation in remote sensing image

每个批次输入样本包含遥感图像和建筑物标签两个部分。遥感图像经过深度残差神经网络得到特征图（由此扩张成特征空间H），实现建筑物特征的编码功能（Encoder）。然后采用反卷积构成解码器，通过对特征图的上采样完成建筑物分割，并将输出尺寸还原至遥感图像的原始尺寸。该过程实现解码的功能（Decoder）。解码结果与建筑物标签一起送到优化器，采用随机梯度下降法对残差神经网络和反卷积网络中的权值进行优化训练。当训练结束后，固定神经网络中的权值不变，此时的输出结果即为建筑物的分割结果。

残差神经网络^[28]是为降低深度神经网络训练难度而提出的一种网络结构。其训练对象不再是真实模型R(x)，而是真实模型与输入样本之间的差R(x)-x。残差神经网络的框架结构如图3（b）所示。其中：被训模型为残差模型F(x)=R(x)-x，在模型输出端引入样本的前馈通道构成闭环，使得 $y = F (x) + x = R (x)$ ，则最终输出仍然为真实模型。在该框架下，神经网络的权值收敛更加有效^[28]。

图3

图3 深度学习框架

Fig.3 Deep learning framework

(a)常规框架 (b)残差模型框架 (c)实施方案

3.2　基于残差深度神经网络构建的Encoder结构

设样本输入为x，训练输出为y=R(x)，常规的卷积神经网络如图3（a）所示，训练结果即为真实模型的直接逼近。为了使输出模型更加逼近真实模型，深度学习网络通常设计得很深，以此来获得高维和强非线性映射。但这常常使得网络训练困难，从而导致预测精度降低甚至训练失败。为此，He等^[28]提出一种残差神经网络，能较好地逼近系统的真实模型，其原理如图3所示。

单层残差神经网络的实施框架如图3（c）所示。前端卷积层之后为激活层，最后一个卷积层输出与前馈信号叠加后激活输出。在前馈通道闭环中，可以包含多个卷积层和激活层，本文采用典型的2层卷积形式。

在文献[28]核心思想的指引下，本文借用其深度残差神经网络为基础，构建Encoder结构，以自动提取建筑物分割所需的特征。然而，典型残差神经网络的层次一般设计的较深，通常有50层、101层、200层甚至更多^[28]，网络结构越深，势必增加计算量。经过大量的实验，在保证分割精度的前提下，设计了一种31层结构的残差神经网络，以降低计算量。设计的深度残差网络共分为5种卷积类型，每种卷积层的数量分别设置为1、6、8、8、8。该卷积层数量既能较为准确地提取建筑物分割所需的特征，又能明显降低计算量。除了第1类卷积层以外，其余卷积类的区别主要在于卷积核的数量，如图4所示。

图4

图4 残差神经网络结构图

Fig.4 Architecture of ResNet neural network

其中，K表示卷积核大小，S表示卷积步幅，C表示卷积输出通道数。每个卷积层均包含卷积、Relu激活^[31]和批量规范化^[27]处理，卷积过程中的补零操作（Padding）选用“SAME”模式。

为了进一步降低计算量，采用文献[28]中前馈闭环的改进方式，将前馈闭环中卷积核大小为3的两层卷积替换成三层卷积，卷积核大小分别是1、3和1，同时通过增加输入和输出通道数量来确保逼近精度。以Conv2_2和Conv2_3为例，替换方式如图5所示。

图5

图5 前馈闭环结构替换方法

Fig.5 Substitute structure of feed-forward loop

当残差神经网络中卷积层的输出通道发生变化时，如Conv2_4到Conv3_1的输出通道数量从64变成了128，前馈通道的输入和输出不一致，如图4所示T1的输入通道为64，输出通道为128^[28]。因此，前馈通道与尾部卷积输出不能直接相加并激活，需要在前馈的卷积操作时对输出通道进行扩容。以T1层为例，其前馈闭环及通道扩容结构替换如图6所示。类似的结构替换还包括T2和T3。

图6

图6 前馈闭环及通道扩容替换方法

Fig. 6 Substitute structure of feed-forward loop with expanded channel

对比图5和图6两类替换后的结构，图5中前馈卷积操作的输入和输出通道数量均为256。图6中前馈卷积操作的输入通道为256，但是输出通道为512，通道扩容后与Conv3_1_3的输出通道相同。

3.3　反卷积构建的Decoder结构

遥感图像通过深度残差神经网络提取得到特征图，实现了编码的功能。在3×3的图像上采用1个2×2的卷积核，步幅S=1的卷积过程如图7所示。

图7

图7 图像卷积过程

Fig.7 Image convolution processing

输入图像为向量 $X = x_{1}, x_{2}, \dots, {x_{9}}^{T}$ ，输出特征图 $Y = y_{1}, y_{2}, y_{3}, {y_{4}}^{T}$ ，卷积过程可表示为:

C X = Y

（1）

C = (\begin{matrix} ω_{1} & ω_{2} & 0 & ω_{3} & ω_{4} & 0 & 0 & 0 & 0 \\ 0 & ω_{1} & ω_{2} & 0 & ω_{3} & ω_{4} & 0 & 0 & 0 \\ 0 & 0 & 0 & ω_{1} & ω_{2} & 0 & ω_{3} & ω_{4} & 0 \\ 0 & 0 & 0 & 0 & ω_{1} & ω_{2} & 0 & ω_{3} & ω_{4} \end{matrix})

深度神经网络中，反卷积的过程是卷积的逆过程^[32]。因此，式（1）的反卷积可看作是从Y到X的传播过程。设输出损失函数为Q，根据BP（Back Propagation）算法求卷积的反向传播，有:

\frac{\partial Q}{\partial X} = {(\frac{\partial Q}{\partial x_{1}} \dots \frac{\partial Q}{\partial x_{9}})}^{T}

（2）

根据式（1）有:

\frac{\partial Q}{\partial x_{i}} = \overset{4}{\sum_{j = 1}} \frac{\partial Q}{\partial y_{j}} \frac{\partial y_{j}}{\partial x_{i}}

= C_{1 i}

\frac{\partial Q}{\partial y_{1}} +

C_{2 i}

\frac{\partial Q}{\partial y_{2}}

+ C_{3 i} \frac{\partial Q}{\partial y_{3}} + C_{4 i} \frac{\partial Q}{\partial y_{4}}

=

{C_{a l l, i}}^{T}

\frac{\partial Q}{\partial y}

（3）

其中： $C_{j i}$ 表示矩阵C中第j行、第i列的元素， ${C_{a l l, i}}^{T} =$ $C_{1, i} \dots C_{4, i}$ ，，所以有：

\frac{\partial Q}{\partial Y}

{(\frac{\partial Q}{\partial y_{1}} \dots \frac{\partial Q}{\partial y_{4}})}^{T}

\frac{\partial Q}{\partial X} = C^{T} \frac{\partial Q}{\partial Y}

（4）

根据式（4）可知，反卷积实质是对输入左乘C^T，因此反卷积也被称为转置卷积^[32]。

采用反卷积实现Decoder功能。Decoder不仅需要通过提取的特征实现建筑物的分割，同时也需要将分割结果复原为输入图像的原始大小。因此，反卷积的信息来源不能仅限于Encoder的特征输出。在确保分割精度的基础上，为了降低计算量，经过大量实验，将Decoder的信息来源确定为Encoder的输出特征图和Conv4_4的输出结果，并将两个反卷积融合，实现建筑物的分割。反卷积实现Decoder功能的实施方案如图8所示。

图8

图8 Decoder的反卷积实现

Fig. 8 Deconvolution for Decoder

首先对Encoder的输出特征图进行反卷积，设输出通道为2（对应于2个分割种类）；输出的尺寸对应于Conv4_4卷积层的特征输出尺寸。在融合Conv4_4特征输出之前，引入一个卷积核K=1，S=1，C=2的卷积操作，将特征图的通道都变为2。在融合这两个特征信息之后再次进行反卷积，设置输出通道为2，输出尺寸为遥感图像原始尺寸。此时输出的规格为[g_h g_w 2]，即两个与输入图像尺寸相同的矩阵，若在此基础上引入softmax操作，两个矩阵分别表示每个像素点属于建筑物和背景的概率。当训练结束后，对输出结果的2个通道进行Argmax运算，得到建筑物的分割结果。

3.4　批量规范化

深度神经网络训练的过程是通过误差反向传播，采用随机梯度下降法等优化方法使权值收敛到最优值。随着神经网络层数的不断增加，可能引发梯度弥散或爆炸、过拟合以及权值震荡等问题，从而导致神经网络的训练更加困难。1.3节中所采用的残差神经网络不仅能更加精确地逼近真实模型，而且在一定程度上能抑制梯度弥散或爆炸。针对训练模型的过拟合问题，通常是采用Dropout技术，在每次训练过程中随机挑选一定比例的权值不参与此次训练，从而降低过拟合。针对权值震荡问题，主要是通过weight decay技术，使梯度下降过程中的步长逐渐衰减，以精确逼近权重的最优值。

在训练神经网络的过程中，数据流逐层传递，低层网络权值的变化必然引起输出数据的分布发生变化，这也是引发深度神经网络训练困难的原因之一。在每个卷积操作输入前，引入批量规范化（Batch Normalization）^[27]技术对数据进行规范化处理，替代了Dropout、weight decay等技术，降低了神经网络的训练难度。

设所有样本为 $X = \{x_{1}, x_{2}, \dots, x_{N}\}$ ，若每次训练前对所有样本进行规范化处理。

{\hat{x}}_{i} = \frac{x_{i} - E (X)}{\sqrt[]{V a r (x_{i})}}

（5）

其中：E(·)表示均值，Var(·)表示方差。则每一个卷积操作过程中，所有的训练样本都服从同一分布。然而，对于深度神经网络庞大的训练样本而言，求取所有样本的均值和方差计算量十分巨大。因此，采用批量规范化操作代替全局均值和方差。即计算每个训练批次样本的均值和方差，再对所有均值和方差取平均值，并以此替代全局均值和方差。设每次训练样本的数量为m，批量规范化的实现过程如算法1所示（表1）。

表1 批量规范化

Table 1 Batch normalization

步骤	操作
输入	获取当前批次训练样本： $X = \{x_{1}, x_{2}, \dots, x_{m}\}$ ，容量m
1	计算均值： $μ_{k}$ = $\frac{1}{m} \overset{m}{\sum_{i = 1}} x_{i}$
2	计算方差： $σ_{k}^{2} = \frac{1}{m} \overset{m}{\sum_{i = 1}} x_{i} - {μ_{k}}^{2}$
3	样本规范化： ${\hat{x}}_{i} = \frac{x_{i} - μ}{\sqrt[]{σ_{k}^{2} + ε}}$ ， $ε$ 为小数值正常数
4	尺度变换： $y_{i} = γ {\hat{x}}_{i} + β$ ， $γ$ 、 $β$ 为可学习参数
5	规范化输出： $B N (x_{i}) = y_{i}$

新窗口打开| 下载CSV

算法1的第4步是对规范化的信号进行重构，其中 $γ$ 、 $β$ 是需要学习的参数。设输出的损失值为Q，参数 $γ$ 、 $β$ 的初始值分别为1和0，根据BP算法和链式法则， $γ$ 、 $β$ 变化率如下所示。

\frac{\partial Q}{\partial {\hat{x}}_{i}}

\frac{\partial Q}{\partial y_{i}}

γ

\frac{\partial Q}{\partial σ_{i}^{2}} = - \frac{1}{2} \overset{m}{\sum_{i = 1}} \frac{\partial Q}{\partial {\hat{x}}_{i}}

x i - μ k

σ_{k}^{2} + ε^{- 2 / 3}

\frac{\partial Q}{\partial μ_{k}}

=

\overset{m}{\sum_{i = 1}} \frac{\partial Q}{\partial {\hat{x}}_{i}} \frac{- 1}{\sqrt[]{σ_{k}^{2} + ε}}

\frac{\partial Q}{\partial x_{i}}

=

\frac{\partial Q}{\partial {\hat{x}}_{i}}

\frac{- 1}{\sqrt[]{σ_{k}^{2} + ε}}

\frac{\partial Q}{\partial σ_{k}^{2}}

\frac{x_{i} - μ_{k}}{m}

\frac{\partial Q}{\partial μ_{k}}

\frac{1}{m}

\frac{\partial Q}{\partial γ}

=

\overset{m}{\sum_{i = 1}} \frac{\partial Q}{\partial y_{i}}

{\hat{x}}_{i}

\frac{\partial Q}{\partial β} =

\overset{m}{\sum_{i = 1}} \frac{\partial Q}{\partial y_{i}}

（6）

4 实验及结果分析

4.1　数据资源及实验平台

以IAILD（Inria Aerial Image Labeling Dataset）遥感图像数据库^[29]为对象，展开验证实验研究。IAILD遥感图像数据库提供地表面积为810 km²，分辨率为0.3 m的遥感图像，其中405 km²已经对建筑物做过精确标记，可作为训练样本。每个样本像素为5 000×5 000，共计180个。由于受GPU存储单元的限制，将每个样本裁剪成1 000×1 000像素大小，则共有样本4 500个，其中4 480个作为训练样本，20个作为测试样本。样本中的遥感图像为RGB 3通道图像，张量表示形式为[N, 1 000, 1 000, 3]; 标记图像为灰度图像，张量表示形式为[N, 1 000, 1 000]，N为批处理时样本的个数。

实验平台搭载Intel-i7-7700K四核CPU处理器、32G内存、ASUS STRIX-GTX1080TI-11G显卡（GPU处理单元），深度学习框架采用Google公司的TensorFlow。

4.2　数据预处理及结果评价指标

在训练神经网络之前，对样本数据进行预处理：

(1)求取所有遥感图像的RGB（Red-Green-Blue）3个通道均值；

(2)每一幅遥感图像的RGB通道减去上述均值；

(3)将标记图像转换成2通道张量，[N，1 000，1 000，2]，其中第1通道中建筑物位置为1，其余位置为0，第2通道数值相反。

为了量化评价分割结果，采用召回率（Recall Rate）、精确率（Precision Rate）和F值（F-measure）来评价分割结果，其计算方式如下所示。

R e c a l l = \frac{B_{s e g}}{B_{s e g} + I_{u n s e g}}

P r e c i s i o n = \frac{B_{s e g}}{B_{s e g} + I_{w s e g}}

F - m e a s u r e = \frac{2 R e c a l l \times P r e c i s i o n}{R e c a l l + P r e c i s i o n}

（7）

其中： $B_{s e g}$ 表示分割结果中建筑物分割正确的像素点数， $I_{u n s e g}$ 表示图像中是建筑物但未被分割为建筑物的像素点数， $I_{w s e g}$ 表示图像中误将背景分割为建筑物的像素点数。

召回率表示被分割为建筑物的像素点与真实建筑物像素点的比率。表征在不考虑遥感图像背景的情况下，建筑物分割的准确度。精确率表示被正确分割为建筑物的像素点与所有分割为建筑物的像素点的比率。精确率高表示能够将建筑物提取出来。F值是综合召回率和精确率这两项指标的评估指标，是用于综合反映整体的指标。

综合Vakalopoulou等^{[17,18,19,20,21,22]}采用的深度学习框架，具有典型代表意义的是VGG全卷积神经网络、VGG与全连接条件随机场相结合的网络结构两种。为了验证本文提出算法的对遥感图像建筑物分割的有效性，在IAILD数据库上开展了与VGG全卷积神经网络（VGG）、VGG条件随机场网络（VGGCRF）的对比实验。为了表述简单，本文提出的算法采用ResNet表示。实验中，VGG采用文献[33]所示的结构，并且前13层神经网络的卷积核参数调用已经训练好的数值，全连接层F6、F7、F8的卷积核分别设置为[16, 16, 512, 1 024]、[1,1,1 024,2 048]、[1,1,2 048,2]，最后融合多层反卷积结果实现建筑物分割结果输出。VGGCRF是在VGG的最后引入全连接条件随机场，具体结构见文献[22]。

4.3　对比实验及结果分析

深度神经网络的训练过程是通过对样本数据的学习，使得深度神经网络权值收敛的过程。3种网络结构均采用交叉熵作为训练的损失函数，训练过程如图9所示。由于残差神经网络的特殊结构和批量规范化技术使得神经网络权值更加容易训练，权重的收敛性能也更好。

图9

图9 深度神经网络训练误差

Fig.9 Train error of deep neural network

需要注意的是，即使在使用了批量规范化技术的情况下，VGGCRF的训练仍然较为困难。经过反复试验，笔者认为VGGCRF可采用两个步骤进行训练，可使网络的权值收敛。首先直接采用VGG网络训练，待建筑物出现分割迹象后，再引入全连接条件随机场一起参与训练，直到满足训练结束条件。三种网络的训练耗时如表2所示。

表2 深度神经网络训练耗时对比

Table 2 Time for training the deep neural networks

时间	VGG	VGGCRF	ResNet
网络调用时间/s	25.26	31.23	137.33
单个样本时间/s	0.69	5.11	0.23
样本集一次训练时间/s	3 328.94	23 222.35	1 418.86

新窗口打开| 下载CSV

由于ResNet网络结构比VGG、VGGCRF复杂，因此网络调用时间最长，但是单个样本的训练时间最短，则对应于样本集一次训练时间最短。VGGCRF中引入了全连接条件随机场，需要迭代计算所有像素对之间的成对势函数的值，因此训练耗时最长。

4.4　对比实验及结果分析

4.4.1　建筑物分割对比实验

实验选择包含复杂道路影响的建筑物、单体复杂建筑物和规律性分布建筑物等三种典型的遥感图像建筑物，采用上述深度神经网络框架进行分割实验，并对实验结果对比分析。其中，图10所示的遥感图像中包含较为复杂的道路。

图10

图10 包含复杂道路的建筑物分割结果

Fig.10 Building segmentation result with intricate road

分析三种深度神经网络分割结果可知，三种网络均能分割建筑物，其中VGG能大致将建筑物确定在一定的范围内，但建筑物边缘信息准确性不高。VGGCRF对建筑物边缘的提取较VGG有所提升。ResNet能较好地提取建筑物的块状信息和边缘特征。同时三种网络对立交桥和阴影都出现一定程度的误分。其中VGG以图像轮廓信息为主导，误分结果表现为条状信息；VGGCRF在VGG基础上缓解了误分的发生；而ResNet提取的立交桥的片状信息。

分割性能评价指标如图11所示，可见ResNet能较大幅度提高这类遥感图像中建筑的召回率、精确率和F值。

图11

图11 包含复杂道路的建筑物分割性能指标

Fig.11 Performance index of building segmentation with intricate road

图12所示遥感图像中建筑物分布较为规律，建筑物分割的干扰主要来自于植物的影响。ResNet的网络结构对建筑物轮廓的检测更加准确，对较小的建筑物仍然能够实现有效分割。根据图13所示的分割结果评价指标可知，ResNet的召回率、精确率和F值均有较大幅度提高。

图12

图12 规律性建筑物分割结果

Fig.12 Ordered Building segmentation result

图13

图13 规律性建筑物分割性能指标

Fig.13 Performance index of ordered building segmentation

图14遥感图像中为单体建筑物，建筑物顶层有错层结构和大面积的阴影。此外，部分建筑物的色彩信息与其上方的道路近似，因此道路的影响更加明显。由分割结果可知，3种网络结构分割结果都出现了较大面积的误分。然而ResNet成功避开了左上角立交桥的影响，且对建筑物的边缘检测更为准确。但是相对于VGG而言ResNet对阴影干扰的鲁棒性不强，将大面的错层阴影误分为了背景，从而导致分割精确率较低，且F值不高。

图14

图14 单体复杂建筑物分割结果

Fig.14 Complicated single building segmentation result

图15

图15 单体复杂建筑物分割性能指标

Fig. 15 Performance index of complicated single building segmentation

上述3种网络对建筑物的分割细节如图16所示。对比3种不同网络的分割结果可知，VGG能大致指示建筑物的范围，同时也能较好的提取受干扰较小的建筑物边缘；VGGCRF对直线型且无干扰的建筑物边缘提取十分准确，但是对于其他类型边缘存在明显的散点式误分。ResNet对建筑物的边缘提取较为准确，且分割结果成块状形态，相对于VGG和VGGCRF而言，对建筑物的分割更为精确。

图16

图16 建筑物分割细节

Fig.16 Details of building segmentation

4.4.2　多分辨率遥感图像建筑物分割实验

采用的IAILD遥感图像数据库分辨率为0.3m。为了检测遥感图像分辨率对本文算法的影响，采用双三次插值法将原始遥感图像进行压缩，压缩比例分别为R=0.2、0.5和0.8，则对应的分辨率分别近似为0.375、0.6和1.5 m。实验验证时，建筑物标签也做相应的压缩。实验结果如图17所示，其中（b1）遥感图像为（a1）中白色方框所示的部分；（c1）遥感图像为（b1）中白色方框内部分。分割性能指标如图18所示。

图17

图17 多分辨率感图像建筑物分割细节

Fig.17 Building segmentation in remote sensing image with multi-resolution

图18

图18 多尺度遥感图像建筑物分割性能指标

Fig. 18 Performance index of building segmentation in remote sensing image with multi scale

对遥感图像进行压缩使得表示建筑物的像素点减少，必然导致获取的建筑物的信息减小。当压缩比例低至0.5时，本文算法仍然能对建筑物实现准确分割，召回率、精确度和F值均较高。但当压缩比例达到0.2时，本文提出分割算法对建筑物的分割精准度严重降低。

5 结语

本文针对高分辨率遥感图像中建筑物的自动精确分割问题提出以残差深度神经网络为基础，构造Encoder-Decoder特征提取与分割复原输出的框架，并运用批量规范化技术手段，在IAILD遥感数据库上开展实验验证。实验结果表明，本文提出的算法计算量较小，对单一样本训练时间为0.23 s，样本集一次训练时间为1 418.862 s；在对邻近复杂道路的建筑物、规律性建筑物、单体复杂建筑物等3种典型建筑的分割实验结果中，分割精度分别达到了0.837、0.892和0.630；F值分别为：0.851、0.879和0.730。与VGG全卷积网络和VGG全连接条件随机场网络相比，本文提出的算法能有效避免复杂道路的影响，对建筑物的块状特征和边缘信息的提取更为准确，能获取更加精准的建筑物分割结果。此外，在多分辨率遥感图像分割中，对分辨率压缩比为0.2、0.5和0.8的3种不同分辨率的遥感图像分割精度能达到0.873、0.822和0.846；F值能分别达到0.911、0.881和0.896，表明本文算法对一定范围内的多分辨率遥感图像具有较好的泛化能力。

然而，对于楼顶结构存在错层和大面积阴影等干扰的复杂建筑物，本文提出的算法仍然存在边缘检测错误、分割精度不高的问题。在后续工作中，将重点研究如何消除复杂建筑物中错层及阴影的干扰，进一步提高建筑物的分割精准度。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Chen

Jie

, Deng

Min

, Xiao

Pengfeng

, et al .

Object-oriented Classification of High Resolution Imagery based on Watershed Transform and Sptial Clustering

[J]. Remote Sensing Technology and Application, 2010, 25(5):597-603.

陈杰，邓敏，肖鹏峰，等 .

基于分水岭变换与空间聚类的高分辨率遥感影像面向对象分类

[J]. 遥感技术与应用, 2010, 25(5):597-603.

[2]

Wang

, Wang

Baoshan

, Wang

Tian

, et al .

Image Entropy Active Contour Models towards Water Area Segmentation in Remote Sensing Image

[J]. Optics and Precision Engineering, 2018

王宇，王宝山，王田，等 .

面向遥感图像水域分割的图像熵主动轮廓模型

[J]. 光学精密工程，2018, 26(3):698-707.

[3]

Jun

, Wang

Yuanyuan

, Chen

Yue

, et al .

Speckle Reduction of Ultrasound Images with Anisotropic Diffusion based on Homogeneous Region Automatic Selection

[J]. Optics and Precision Engineering, 2014, 22(5):1312-1321.

吴俊，汪源源，陈悦，等 .

基于同质区域自动选取的各向异性扩散超声图像去噪

[J]. 光学精密工程，2014, 22(5):1312-1321.

[4]

Chen

Kuntang

, Dong

Xiaolong

, Xu

Xing’ou

, et al .

The Study on Oceanic Vector Wind Field Retrieve Technique based on Neural Networks of Microwave Scatterometer

[J]. Remote Sensing Technology and Application, 2017,32 (4): 683-690.

陈坤堂，董晓龙，徐星欧，等 .

微波散射计反演海面风场的神经网络方法研究

[J]. 遥感技术与应用， 2017,32 (4): 683-690.

[5]

Wang

, Li

, Zhao

Quanhua

Region-based Multiscale Segmentation of Panchromatic Remote Sensing Image

[J]. Control and Decision, 2018, 33(3): 535-541.

王玉，李玉，赵泉华 .

基于区域的多尺度全色遥感图像分割

[J]. 控制与决策， 2018, 33(3): 535-541.

[6]

Hinton

G E

， Salakhutdinov

R R

Reducing the Dimensionality of Data with Neural Networks

[J].Science, 2006, 313(5786): 504-507.

[7]

Zeng

N Y

， Zhang

， Song

B Y

, et al .

Facial Expression Recognition via Learning Deep Sparse Autoencoders

[J]. Neurocomputing, 2018, 273(17): 643-649.

[8]

X Y

， Pan

J S

， Zhang

Y J

, et al .

Motion Blur Kernel Estimation via Deep Learning

[J]. IEEE Transactions on Image Processing, 2018, 27(1): 194-205.

[9]

Shao

H D

， Jiang

H K

， Zhang

H Z

, et al .

Rolling Bearing Fault Feature Learning Using Improved Convolutional Deep Belief Network with Compressed Sensing

[J]. Mechanical Systems and Signal Processing, 2018, 100: 743-765.

[10]

Long

， Shelhamer

， Darrell

Fully Convolutional Networks for Semantic Segmentation

[C]∥ IEEE Transactions on Pattern Analysis & Machine Intelligence,2015:3431-3440.

[11]

Shelhamer

， Long

， Darrell

Fully Convolutional Networks for Semantic Segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.

[12]

Simonyan

， Zisserman

Visual Geometry Group

[EB/OL]. http:∥,2014.

URL [本文引用: 1]

[13]

Badrinarayanan

， Kendall

， Cipolla

SegNet: A Deep Convolutional Encoder-decoder Architecture for Scene Segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.

[14]

， Koltun

Multi-scale Context Aggregation by Dilated Convolutions

[C]∥ International Conference on Learning Representations,2016.

[15]

Chen

L C

， Papandreou

， Kokkinos

, et al .

Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

[C]∥International Conference on Learning Representations, 2015.

[16]

Deeplab-public [EB/OL], https:∥bitbucket.org/deeplab/deeplab-public/,2017,2018.

[17]

Vakalopoulou

， Karantzalos

， Komodakis

, et al .

Building Detection in very High Resolution Multispectral Data with Deep Learning Features

[C]∥IEEE. Geoscience & Remote Sensing Symposium, 2015:1873-1876.

[18]

Huang

Z M

， Cheng

G L

， Wang

H Z

, et al .

Building Extraction from Multi-source Remote Sensing Images via Deep Deconvolution Neural Networks

[C]∥IEEE. Geoscience and Remote Sensing Symposium, 2016:1835-1838.

[19]

Saito

， Aoki

Building and Road Detection from Large Aerial Imagery

[C]∥Image Processing: Machine Vision Applications VIII , 2015:1814-1821.

[20]

Yuan

Learning Building Extraction in Aerial Scenes with Convolutional Networks

[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 40(11): 2793-2798.

[21]

Bittner

， Cui

S Y

， Reinartz

Building Extraction from Remote Sensing Data Using Fully Convolutional Networks

[C]∥ISPRS Hannover Workshop: Hrigi, 2017:481-486.

[22]

Bischke

， Helber

， Folz

, et al .

Multi-Task Learning for Segmentation of Building Footprints with Deep Neural Networks

[EB/OL].https:∥arxiv.org/abs/ 1709.,2017,2017.

URL [本文引用: 3]

[23]

Wang

， Wang

， Zhang

Integrating H-A-α with Fully Convolutional Networks for Fully PolSAR Classification

[C]∥IEEE. International Workshop on Remote Sensing with Intelligent Processing, 2017:1-4.

[24]

Alshehhi

， Marpu

P R

， Woon

W L

, et al .

Simultaneous Extraction of Roads and Buildings in Remote Sensing Imagery with Convolutional Neural Networks

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2017, 130: 139-149.

[25]

Lin

， Shi

， Zou

Fully Convolutional Network With Task Partitioning for Inshore Ship Detection in Optical Remote Sensing Images

[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(10): 1665-1669.

[26]

Jiao

， Liang

， Chen

, et al .

Deep Fully Convolutional Network-based Spatial Distribution Prediction for Hyperspectral Image Classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(10): 5585-5599.

[27]

Ioffe

， Szegedy

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

[EB/OL], https:∥arxiv.org/abs/ 1502.,2015,2018.

URL [本文引用: 4]

[28]

K M

, Zhang

X Y

, Ren

S Q

, et al .

Deep Residual Learning for Image Recognition

[J]. https:∥arxiv.org/abs/ 1512.03385,2015.

[本文引用: 8]

[29]

Nirvana Inria Aerial Image Labeling Dataset [EB/OL]. https:∥project.inria.fr/aerialimagelabeling/,2016,2017..

[30]

Maggiori

， Tarabalka

， Charpiat

，et al .

Can Semantic Labeling Methods Generalize to Any City? The Inria Aerial Image Labeling Benchmark

[C]∥IEEE International Symposium on Geoscience and Remote Sensing, 2017:3226-3229.

[31]

Krizhevsky

， Sutskever

， Hinton

G E

ImageNet Classification with Deep Convolutional Neural Networks

[C]∥Neural Information Processing Systems Conference, 2012:1097-1105

[32]

Dumoulin

， Visin

A Guide to Convolution Arithmetic for Deep Learning

[EB/OL], https:∥arxiv.org/abs/ 1603. , 2016,2018.

URL [本文引用: 2]

[33]

Shelhamer

， Long

， Darrell

Fully Convolutional Networks for Semantic Segmentation

[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 39(4): 640-651.