遥感技术与应用, 2019, 34(5): 970-982 doi: 10.11873/j.issn.1004-0323.2019.5.0970

林业遥感专栏

基于高分二号遥感影像的树种分类方法

李哲, 张沁雨, 彭道黎,

北京林业大学大学林学院,北京 100083

Classification Method of Tree Species based on GF-2 Remote Sensing Images

Li Zhe, Zhang Qinyu, Peng Daoli,

College of Forestry,Beijing Forestry University,Beijing 100083,China

通讯作者: 彭道黎(1963-),男,湖南常德人,教授,主要从事森林资源监测与评价方面的研究。E⁃mail:dlpeng@bjfu.edu.cn

收稿日期: 2018-10-13   修回日期: 2019-09-19  

基金资助: 国家林业局948项目.  2015⁃4⁃32

Received: 2018-10-13   Revised: 2019-09-19  

摘要

为推广国产高分数据在森林树种分类方面的应用,以北京市延庆区八达岭国家森林公园主要区域的6期高分二号影像为数据源,在分层分类的基础上,利用支持向量机递归特征消除、C5.0决策树、FSO 3种特征优选方法,从4种特征维度下实现面向对象的支持向量机和随机森林的森林树种分类,最终取得总体精度平均为83.65%,特定树种生产者精度介于93.75%(山杏)和38.10%(刺槐)之间,特定树种用户精度介于100%(华北落叶松)和44.74%(榆树)之间的良好结果。结果表明:C5.0决策树耗时最短(0.01 h)且其所选特征应用于分类总体精度最高(86.90%);在不同特征维度下支持向量机分类的总体精度比随机森林平均高出3.28%;支持向量机和随机森林均对特征维度不敏感,但良好的特征优选结果仍会对支持向量机的分类效率(最高提升86.98%)和随机森林的分类精度(最高提升9.22%)产生较大影响。

关键词: 高分二号 ; 树种分类 ; 特征优选 ; 支持向量机 ; 随机森林

Abstract

In order to promote the application of Chinese Gaofen data in the classification of forest tree species, The six GF-2 images of the main area of Badaling National Forest Park in Yanqing District, Beijing were used as the data source, we used support vector machine-recursive feature elimination, C5.0 decision tree and feature space optimization three feature optimization methods to accomplish the object-oriented Support Vector Machines (SVM) and Random Forest (RF) forest tree classification from four feature dimensions on the basis of the hierarchical classification. we can achieve good classification results that the average Overall Accuracy of the study was 83.65%, the Producer's Accuracy of specific tree species was between 93.75% (Apricot) and 38.10% (Locust), and the Use's Accuracy of specific tree species was between 100% (North China Larch) and 44.74% (Elm). The results showed the C5.0 feature selection took the shortest time(0.01 h) and features selected by it could be applied to the highest classification accuracy (86.90%). Under different feature dimensions, the Overall Accuracy of SVM classification was 3.28% higher than the RF.SVM and RF were both insensitive to feature dimensions, but good feature optimization results will still have a large impact on the classification efficiency of SVM(Highest improvement was 86.98%) and the classification accuracy of RF(Highest improvement was 9.22%).

Keywords: GF-2 ; Tree species classification ; Feature selection ; Support vector machines ; Random forest

PDF (5624KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李哲, 张沁雨, 彭道黎. 基于高分二号遥感影像的树种分类方法. 遥感技术与应用[J], 2019, 34(5): 970-982 doi:10.11873/j.issn.1004-0323.2019.5.0970

Li Zhe, Zhang Qinyu, Peng Daoli. Classification Method of Tree Species based on GF-2 Remote Sensing Images. Remote Sensing Technology and Application[J], 2019, 34(5): 970-982 doi:10.11873/j.issn.1004-0323.2019.5.0970

1 引 言

森林是最重要的陆地生态系统,其对人类社会可持续发展具有举足轻重的作用。树木作为构成森林的主体,对其种类及分布情况的掌握在森林生态系统生物多样性保护、森林可持续经营等方面发挥着关键作用,因此,获取空间上详细的树种信息是非常重要的1。传统方式的森林树种识别通常依靠周期长、花费成本高的实地调查工作,其劳动强度大且难以大面积的开展。近年来,随着遥感技术的蓬勃发展,适用于森林资源监测的遥感数据越来越丰富,这使得利用不同遥感数据快速地获取大面积森林树种信息成为了常见的手段2-4

高空间分辨率遥感影像比中低空间分辨率遥感影像在空间信息、纹理信息等方面更加精确和丰富,其在林业遥感方面有着广泛的应用并使林业遥感向精准化方向不断发展5。目前,利用高空间分辨率遥感影像是基于遥感影像实现树种分类的研究热点和难点,国内外有大量学者利用其成功地实现了树种分类6-10;但随着研究的深入,高空间分辨率遥感影像光谱分辨率较低、纹理信息冗余处理难度大等问题逐渐暴露出来,如何高效而精确地利用其实现树种分类已成为亟待解决的问题。此外,我国研发的高分二号(GF-2)卫星可提供空间分辨率优于1 m的遥感影像,这标志着我国民用遥感卫星进入亚米级的“高分时代”,自GF-2升空以来,其下传的数据已广泛应用于土地、矿产等行业领域11-13,但在森林树种分类方面的应用并不多见。

在遥感影像分类前,通常会尽可能多地提取特征,以保证分类成功;但这也会造成特征冗余,进而影响分类器效率,还有可能造成“休斯效应”。支持向量机递归特征消除(Support Vector Machine-Recursive Feature Elimination, SVM-RFE)、C5.0决策树以及eCognition Developer 9.0中的Feature Space Optimization(FSO)3种特征优选方法均可减少冗余特征,已在遥感影像分类中发挥过重要作用14-16

在遥感影像分类中,面向对象分类是针对高分辨率遥感影像的特性而提出的分类方法,其弥补了基于像元分类方法的不足,可有效抑制“椒盐现象”的发生,在地类及森林树种分类方面应用广泛17-20。支持向量机(Support Vector Machines, SVM)自20世纪90年代被提出以来,在文本分类、人脸识别、图像处理与识别方面已得到了广泛的应用,理论基础和实现途径成熟21。随机森林(Random Forest, RF) 是一种树型集成分类器,因其具有运算速度快和对噪声数据不敏感等优势,近年来在土地分类和树种识别方面备受关注22。树木存在着发芽、展叶、叶变色以及落叶等周期性的自然现象,即物候现象。研究表明,当采用存在明显物候变化的遥感数据进行树种分类时,可更有把握对树种进行区分23

本研究采用6期存在物候变化的GF-2影像,利用SVM-RFE、C5.0决策树以及FSO 3种特征优选方法进行特征优选,并结合面向对象的SVM、RF两种分类器对森林树种进行分类,旨在探索能够高效精确地实现树种分类的特征优选和分类器的组合,以期为基于GF-2影像快速准确地获取森林树种分布信息提供依据。

2 研究区及数据集

2.1 研究区概况

八达岭国家森林公园位于北京市西北部延庆区境内,距北京市区60 km,地理坐标为40°15′~40°22′ N,115°55′~116°03′ E。公园地处燕山山脉和太行山山脉交汇处,地势西高东低,沟谷纵横,平均海拔780 m,最高海拔1 238 m,最低海拔450 m。公园作为京西北重要的绿色生态屏障,现植被覆盖率高达到96%,森林覆盖率已到达57%,公园内树种主要有油松(Pinus tabulaeformis Carr)、华北落叶松(Larix principis-rupprechtii Mayr)、侧柏(Platycladus orientalis (Linn.) Franco)、元宝枫(Acer truncatum Bunge)、刺槐(Robinia pseudoacacia Linn)、榆树(Ulmus pumila Linn)、山杏(Armeniaca sibirica (Linn.) Lam)、杨树(Populus L)等。

受多期遥感影像覆盖区域的限制,所选研究区为八达岭国家森林公园东北部的主体部分(图1)。研究区内地势陡峭,实地调查难度大,且区域内景点密集,游客众多;通过遥感手段实现森林树种分类对当地森林资源的管理和森林游憩价值的充分发挥意义重大。

图1

图1   研究区域位置与外业调查点分布图

(a) 研究区域位置 (b) 2018年4月25日获取的真彩色影像

Fig.1   Location of the study area and points of field investigation


2.2 数据收集及处理

为提高树种分类的精度,选取存在物候变化的6期GF-2影像作为遥感影像数据源(表1),通过目视对比,6期影像在拍摄时间跨度内没有发生明显的大面积的地物变化,且研究区内林地均为生态公益林,在此时间跨度内树种变化亦不明显。辅助数据包括研究区域30 m的ASTER GDEM数据、2014年研究区森林资源规划设计调查数据(森林资源二类调查数据)及2018年7月17~ 20日外业实地调查获取的742个样本(图1);其中DEM将用于影像预处理,而森林资源二类调查数据和外业实地调查数据主要用于分类的训练和验证。

表 1   影像信息统计

Table 1  Statistic of images information

序号采集时间产品号对应生长期
12014-10-171065695变色初期
22017-01-272149217停止生长期
32017-03-072223865发芽初期
42017-05-152359849生长旺盛期
52017-11-042742984落叶初期
62018-04-253144010展叶末期

新窗口打开| 下载CSV


首先以中国资源卫星应用中心提供的GF-2绝对辐射定标系数对影像多光谱数据进行辐射定标,将全色数据定标为表观反射率,并利用ENVI 5.3中的FLAASH模块对多光谱辐射定标之后的辐亮度图像进行大气校正;然后利用DEM数据对影像进行正射校正,并以提供方校正好的2014年影像为基准影像,对剩余影像进行配准,将误差控制在1个像元内;再利用DEM数据和SCS+C模型对影像进行地形校正,并将校正好的多光谱和全色数据进行图像融合24,最后利用研究区边界对融合后的影像进行裁剪,获得6期研究区范围的影像。

3 研究方法

3.1 图像分割及对象特征提取

在面向对象的分类方法中,影像对象的获取和对象特征的提取是遥感影像分类的基础;影像对象质量将直接对地物分类的效率和精度产生重要影响,而关键对象特征的有无决定了能否完成不同地物的区分。因此,影像分割参数及尺度的确定和对象特征的提取成为影像分类效果的关键因素。

在以往分类效果较好的研究中,影像分割参数及尺度多通过试错法获得,而常用的对象特征包括光谱、专题指数和纹理等特征18-20。故本研究以eCognition Developer为平台,使用6期融合后的影像叠合作为输入数据进行多尺度分割,通过试错法选择适宜的分割参数,并利用ESP(Estimation of Scale Parameter)工具确定最优分割尺度25;所提取的特征为通过24个波段(表1)构建的光谱、植被指数、及基于4个方向综合的灰度共生矩阵(The Gray Level Co-occurrence Matrix, GLCM)和灰度差向量(The Gray-level Difference Vector, GLDV)的纹理3大类共410个26表2)。

表 2   特征统计

Table 2  Statistic of features

特征类别特征数量
光谱特征亮度(Brightness)1
均值(Mean)24
标准差(Standard deviation)24
比率(Ratio)24
最大差异度量(Max. diff.)1
植被指数差值植被指数(DVI)6
绿色归一化植被指数(GNDVI)6
归一化植被指数(NDVI)6
再归一化植被指数(RDVI)6
比值植被指数(RVI)6
土壤调节植被指数(SAVI)6
纹理特征GLCM角二阶矩(GLCM.Ang.2nd moment)25
GLCM反差(GLCM.Contrast )25
GLCM相关性(GLCM.Correlation)25
GLCM异质性(GLCM.Dissimilarity)25
GLCM熵(GLCM.Entropy)25
GLCM同质性(GLCM.Homogeneity)25
GLCM均值(GLCM.Mean)25
GLCM标准差(GLCM.StdDev.)25
GLDV角二阶矩(GLDV.Ang.2nd moment)25
GLDV反差(GLDV.Contrast)25
GLDV熵(GLDV.Entropy)25
GLDV均值(GLDV.Mean)25

新窗口打开| 下载CSV


3.2 分层分类

分层分类指的是在进行分类时,首先进行初步分类,例如先将地物分为城镇、水体、农田和林地等类别,然后在此基础上,针对所需要的类别进行精细分类。其在待分类别较多且类别间具有隶属关系的情况下可以取得优异的结果27。本研究根据国家标准《土地利用现状分类》GB/T 21010-2017和2014年研究区森林资源二类调查数据,设计了3个层次的分类。

第一层分类是将研究区域划分为林地和非林地,故分割作用于整个研究区。鉴于有关林地和非林地分类的研究较为成熟,在第一层分类中未进行特征优选,直接以2014年10月17日、2017年5月15日、2018年4月25日影像的NDVI及GNDVI作为分类特征,采用SVM完成分类。

第二层分类是将第一层分类中获得的林地进行细化,故分割只在林地上进行。鉴于2014年森林资源二类调查数据显示研究区内仅有乔木林地、灌木林地及6个小班的未成林造林地,同时考虑到现在距2014年调查已过去4年多,研究将第二层分类定为乔木林地与灌木林地的区分。因乔木林地和灌木林地的区分存在一定难度,在第二层分类中,研究采用C5.0进行特征优选,利用SVM完成二者的区分。

第三层分类是在乔木林地上实现对油松、华北落叶松、侧柏、元宝枫、刺槐、榆树、山杏和杨树共8种主要树种的区分,分割仅在乔木林地上进行。在第三层中,研究利用3种特征优选方法优选后的特征和全部特征构建四种特征维度,分别采用SVM和RF在4种特征维度下完成树种的分类。

考虑到有研究表明RF对训练样本中不同类别的比例敏感,不能很好地处理不平衡的训练数据,且倾向于支持最具代表性的类别28-29;同时为保证每个树种存在一定数量的验证样本,第三层分类从各树种外业调查数据中随机选择25个样本作为训练样本,总计200个。

3.3 特征优选方法和分类器

3.3.1 特征优选方法

利用6期影像提取了数量庞大的对象特征,为降低特征冗余,并比较特征优选方法的优劣,利用C5.0、SVM-RFE、FSO 3种方法进行特征优选。其中SVM-RFE是在n个特征中每次递归删除一个无关紧要的特征,直至找到可以使类之间的区分最大化的大小为r(r <n)的子集14;C5.0算法是C4.5算法的改进版,其计算速度高,对计算内存占用少,适用于处理大数据集15;FSO通过计算不同特征空间组合中各类样本间的最小J-M距离,距离越大,分离度越大,最大分离度的即为最佳特征空间组合16。其中,C5.0及SVM-RFE均在R3.5.0上予以实现,而FSO则是基于eCognition Developer平台。

3.3.2 分类器

SVM是构建于VC维理论和结构风险最小理论上的统计学习方法,它的原理是根据训练样本信息寻求模型复杂性和学习能力之间的最佳平衡点,从而获得最优推广能力21。在本研究中SVM通过eCognition Developer实现,其参数设置保持默认,Kernel type使用linear,C内核选择2。

RF是一种由多棵分类与回归树(Classification and Regression Tree, CART)构成的集成分类器,其主要包括训练和分类两个阶段。在训练阶段,首先采用随机可重复的自助取样策略(bootstrap)选取训练样本,然后针对每个训练样本集利用CART 算法构建分类树,对树中每个节点,先从所有特征中为其随机选取Mtry个特征,并依据基尼系数进行分裂测试并选取最优特征。重复上述取样、建树过程Ntree次,最终建立由Ntree棵决策树构成的随机森林。在分类阶段,每棵决策树都对新样本的类别进行独立判断,最后汇总所有决策树的分类结果,采用多数投票原则输出最终结果,在bootstrap取样过程中,约有1/3的样本未被选中,这些样本称为袋外(Out Of Bag, OOB)数据,使用OOB数据对RF模型进行评估可得到OOB精度或OOB误差22。本研究中的RF是在R3.5.0构建的,具体分类的实现是通过R和ArcGIS协调完成的。

3.4 精度评价

利用混淆矩阵(Confusion Matrix)中的用户精度(Use's Accuracy)、生产者精度(Producer's Accuracy)、总体分类精度(Overall Accuracy)和Kappa系数对影像的分类结果进行评价30。其中,第一、二层分类在渔网布点的基础上通过影像目视解译同时辅以森林资源二类数据和外业数据的形式获得验证样本877个;在完成第三层分类后,以外业调查中除去训练样本后的32个山杏、53个侧柏、109个油松、30个榆树、42个刺槐、19个华北落叶松、48个元宝枫、37个杨树、111个灌木林地及61个非林地为验证样本对总体分类情况进行验证。

4 结果与分析

4.1 尺度参数的确定

根据对影像分割的尝试,本研究在形状因子为0.3,紧致度因子为0.5时可取得很好的分割效果;当尺度参数设置为350时,影像存在明显的“欠分割”现象,而尺度参数设置为150时,影像分割又较为破碎,均不适合一、二层次的分类。故利用ESP在150~350区间内寻找适宜的尺度参数(图2)。最终确定第一层分割尺度参数为299,第二层为234。

图2

图2   尺度参数分析结果(150~350)

Fig.2   Scale parameter analysis result(150~350)


因森林公园中乔木间存在一定程度的混交,先前ESP的尺度参数区间不适宜树种的区分,故重新对第三层尺度参数进行确定。通过对影像的分割尝试发现,当尺度参数下降到80时获得的对象数量急剧增加,影像分割过于破碎,于是以80为起点,利用ESP寻找适宜树种分类的尺度参数,最终确定为99(图3)。

图3

图3   尺度参数分析结果(80~150)

Fig.3   Scale parameter analysis result(80~150)


4.2 特征优选

本研究中第二层分类里通过C5.0选出特征24个(表3)。在第三层分类里,通过C5.0优选出特征13个(表4);通过SVM-RFE优选出特征48个(表5);通过FSO优选出特征256个,但因其优选出的特征过多,文中只列出排名前50的特征用于对比(表6)。

表 3   第二层分类优选特征及重要性排名

Table 3  Feature and rank of importance in second level classification

排名特征参数排名特征参数排名特征参数
1GLCM.Ang.2nd.moment.1_B2GNDVI.33Ratio.1_G
4Ratio.5_N5Ratio.1_R6RVI.1
7Mean.1_R8Mean.6_N9GLCM.Homogeneity.
10GLCM.Entropy.4_G11GNDVI.112GLCM.Entropy.3_R
13GLCM.Homogeneity.1_N14Standard.deviation.1_N15Standard.deviation.4_R
16Standard.deviation.1_G17GLCM.StdDev.2_G18GLCM.Homogeneity.3_R
19GLCM.Ang.2nd.moment.4_N20Ratio.4_N21GLDV.Contrast.5_G
22Standard.deviation.4_G23GLCM.Ang.2nd.moment.1_N24GLCM.Mean.1_N

注:表中数字为影像序号,B、G、R、N对应影像4个波段,下表同

新窗口打开| 下载CSV


表 4   优选特征及重要性排名(C5.0)

Table 4  Feature and rank of importance(C5.0)

排名特征参数排名特征参数排名特征参数
1Ratio.3_R2Ratio.5_B3Ratio.1_G
4Mean.1_G5SAVI.16Standard.deviation.1_B
7Ratio.2_B8Mean.6_R9Standard.deviation.1_R
10Ratio.4_G11Mean.6_B12Ratio.2_R
13GLCM.Correlation

新窗口打开| 下载CSV


表 5   优选特征及重要性排名(SVM-RFE)

Table 5  Feature and rank of importance(SVM-RFE)

排名特征参数排名特征参数排名特征参数
1Ratio.1_R2Mean.4_R3SAVI.1
4RVI.15NDVI.16Mean.4_N
7GLDV.Ang.2nd.moment.6_G8Mean.4_G9DVI.4
10GLDV.Entropy.6_G11Ratio.3_R12GLCM.Dissimilarity.6_G
13GLDV.Mean.6_G14GLCM.Homogeneity.6_G15GLCM.Correlation.6_G
16GLDV.Contrast.6_G17GLCM.Contrast.6_G18RDVI.4
19GLDV.Ang.2nd.moment.6_B20Mean.4_B21Ratio.5_R
22GLDV.Ang.2nd.moment.6_R23SAVI.324RVI.3
25NDVI.326GLDV.Entropy.6_B27GLDV.Entropy.6_R
28GLCM.Dissimilarity.6_B29GLDV.Mean.6_B30GLCM.Homogeneity.6_N
31GLCM.Dissimilarity.6_R32GLDV.Mean.6_R33GLCM.Homogeneity.6_B
34GLCM.Correlation.6_B35Ratio.3_N36SAVI.5
37RVI.538NDVI.539GLCM.Homogeneity.6_R
40GLDV.Ang.2nd.moment.6_N41GLCM.Correlation.6_R42GLCM.Contrast.6_B
43GLDV.Contrast.6_B44GNDVI.345GLCM.Contrast.6_R
46GLDV.Contrast.6_R47RDVI.348Ratio.5_N

新窗口打开| 下载CSV


表 6   优选特征及重要性排名(FSO)

Table 6  Feature and rank of importance(FSO)

排名特征参数排名特征参数排名特征参数
1Mean.4_N2DVI.13SAVI.6
4GLDV.Entropy.6_G5GLCM.Correlation.1_B6GLCM.Correlation.4_R
7GLCM.Correlation.3_N8GLCM.Entropy.3_N9GLCM.Correlation.2_R
10RVI.111Mean.6_R12GLCM.Correlation.1_N
13GLCM.StdDev14GLDV.Entropy.6_N15Mean.1_R
16GLCM.Correlation.2_N17Mean.5_R18GLCM.Correlation.3_B
19GLCM.Correlation.4_B20GLCM.StdDev.6_G21Standard.deviation.4_N
22GLDV.Mean.6_N23Standard.deviation.6_N24GLCM.Entropy.4_B
25Standard.deviation.4_B26GLCM.Correlation.1_R27GLCM.Correlation.5_N
28Mean.1_N29Ratio.1_G30GLCM.Correlation.5_R
31GLCM.Correlation.3_R32Mean.5_G33GLCM.Correlation.2_G
34GLCM.Entropy.1_N35GLDV.Entropy.2_N36GLCM.Correlation
37GLCM.Correlation.4_G38Brightness39GLCM.Dissimilarity.6_B
40Mean.2_R41Standard.deviation.4_G42DVI.4
43GLCM.Dissimilarity.2_R44GLDV.Entropy.3_N45GLCM.Correlation.1_G
46GLCM.Correlation.4_N47GLCM.Dissimilarity.6_N48NDVI.6
49GLDV.Entropy.1_N50GLCM.Entropy.6_N

新窗口打开| 下载CSV


可以看出,第二层分类中所优选出的特征里纹理特征数量较多,符合乔木与灌木区分的一般规律;而第三层分类中,以优选所得特征较多的FSO作为参考对另两种方法所选出特征进行分析可以发现,C5.0排名为2、7、12的特征为其所独有,SVM-RFE中排名为7、18、19、21、22、23、25、35、36、38、46、47的特征为其所独有,3种方法共有特征为Ratio.3_R、SAVI.1,且这两个特征在3种结果中的排名均比较靠前。值得注意的是C5.0结果中基于叶变色和落叶期影像构建的特征占比很大,且除两个共有特征外其他所有特征在SVM-RFE的结果中均不存在,而SVM-RFE结果中基于展叶和生长旺盛期影像构建的特征占了绝大部分,且其包含许多纹理特征是C5.0结果中所缺失的。

进行特征优选的重要作用之一就是减少特征维数以提高分类器的效率,所以也应对特征优选方法的耗时进行考量。本研究第三层分类中,3种特征优选方法所用数据相同可进行比较,其中C5.0用时小于0.01 h,耗时最短;SVM-RFE因需对特征进行逐个删除,耗时较长,用时2.25 h,FSO在耗时上表现最差,用时高达6.78 h。

4.3 分类结果

4.3.1 第一、二层分类

通过混淆矩阵可以得出(表7),第一、二层分类总体精度89.97%,Kappa系数0.82。通过分析认为,其非林地用户精度较低是因为紧挨林地的非林地对象中混入部分林地所致;乔木林地生产者精度较低是由于研究区东南部存在一定的侧柏幼龄林被划分为灌木林地所致,但乔木林地的用户精度较高,可在此基础上进行树种的细分。

表 7   乔木林地与灌木林地混淆矩阵

Table 7  Confusion matrix of arbor and shrub

类别

灌木

林地

乔木

林地

非林地

用户精度

/%

总体精度:89.97%Kappa系数:0.82
灌木林地38346189.07
乔木林地27340192.39
非林地496683.54
生产者精度/%92.5186.0897.06

新窗口打开| 下载CSV


4.3.2 第三层分类

在利用SVM完成4个特征维度下的分类后,使用前述542个验证样本构建混淆矩阵进行精度验证,精度比较结果如表8所示。

表8   不同特征维度下SVM的精度比较

Table 8  Accuracy comparison of SVM under different feature dimensions

C5.0SVM-RFEFSOALL
生产者精度/%用户精度/%生产者精度/%用户精度/%生产者精度/%用户精度/%生产者精度/%用户精度/%
灌木林地92.7990.3592.7990.3592.7990.3592.7990.35
非林地100.0091.04100.0091.04100.0091.04100.0091.04
山杏93.7581.0878.1365.7984.3872.9784.3881.82
侧柏86.7968.6681.1374.1492.4570.0092.4570.00
榆树76.6769.7063.3361.2973.3373.3373.3375.86
刺槐64.2979.4157.1466.6761.9081.2561.9076.47
油松85.3296.8885.3291.1887.1696.9484.4094.85
元宝枫85.4295.3570.8389.4777.0886.0585.4285.42
杨树81.0896.7767.5771.4381.0888.2478.3890.63
华北落叶松89.4785.0089.4773.9189.47100.0089.4794.44
总体精度/%86.9081.9286.1686.16
Kappa系数0.850.790.840.84

新窗口打开| 下载CSV


因不同分类情况下RF的默认参数会发生改变,故使用前需对其参数进行调试。鉴于理论与实践均已证明分类精度对Ntree的敏感性远低于Mtry,且因RF计算效率高还不会发生过度拟合故Ntree可以尽可能大31,所以本研究不再对Ntree进行调试。在模型构建中,着重对Mtry进行试验。为使研究Mtry所构建的模型更加稳定同时避免较小的Ntree对不同特征维度敏感,在Mtry的试验中本研究将Ntree设置为10 000,分别对不同特征维度下的Mtry进行穷举32,结果如图4所示。

图 4

图 4   Mtry对袋外误差的影响

Fig.4   Influence of different Mtry values on OBB error


通过图4可以发现,在不同特征维度下Mtry随袋外误差的变化曲线均表现出先急剧下降而后有所攀升并逐渐趋于稳定的趋势;当除去Mtry急剧下降时的异常值,4种维度下因Mtry改变而引起的袋外误差变化均未超过3.5%。故认为Mtry的设定对模型性能的提升作用有限,尤其是在特征维度较大时33。建议Mtry保持默认值(特征总数的平方根)即可,若特征维度较小,也可对Mtry进行逐一尝试确定最优值。

本研究将Ntree和Mtry均设定为默认,在RF完成4个特征维度下的分类后,使用验证样本构建了混淆矩阵进行精度验证,其精度比较结果如表9所示。

表 9   不同特征维度下RF的精度比较

Table 9  Accuracy comparison of RF under different feature dimensions

C5.0SVM-RFEFSOALL
生产者精度/%用户精度/%生产者精度/%用户精度/%生产者精度/%用户精度/%生产者精度/%用户精度/%
灌木林地92.7990.3592.7990.3592.7990.3592.7990.35
非林地100.0091.04100.0091.04100.0091.04100.0091.04
山杏87.5087.5071.8856.1084.3884.3881.2583.87
侧柏83.0260.2769.8160.6683.0264.7179.2562.69
榆树63.3363.3356.6744.7466.6752.6366.6757.14
刺槐61.9078.7938.1051.6159.5278.1359.5273.53
油松80.7395.6581.6591.7580.7396.7080.7394.62
元宝枫89.5897.7354.1781.2585.4297.6285.4297.62
杨树83.7893.9456.7658.3381.0888.2478.3890.63
华北落叶松89.4770.8389.4768.0089.4770.8389.4762.96
总体精度/%84.8775.6584.1383.39
Kappa系数0.830.720.820.81

新窗口打开| 下载CSV


完成分类所用时间是衡量分类器优劣的标准之一。本研究第三层分类中,两种分类器虽所处平台不同,但仍可对同一分类器不同特征维度下的分类时间进行比较,进而侧面反映二者分类效率的差异。SVM分类所用时间与特征维度成正相关。利用全部特征进行分类用时1.92 h;经C5.0优选的特征进行分类用时0.25 h,与利用全部特征相比在分类效率上提高了86.98%34;利用SVM-RFE和FSO优选特征的分类效率与利用全部特征相比,分别提高了61.98%和13.02%。在4种特征维度下RF的分类都在0.01 h内完成,且其时间消耗并没因特征维度的变化而剧烈改变,故即使平台不同,仍可认为在分类效率方面,RF比SVM更具有优势。

考虑到本研究中分类组合较多,故仅展示总体精度最高(C5.0+SVM)和最低(SVM-RFE+RF)分类组合的结果(图5)用以比较。

图5

图5   分类结果比较

Fig.5   Classification result comparison


5 讨 论

在第三层分类中研究使用不同的特征优选方法和分类器实现了8种分类 ,现对分类结果进行汇总讨论。

首先是特征优选方面,通过对总体精度的比较可以发现(图6),3种特征优选方法中,C5.0算法的表现最为优异,在其优选特征下的SVM、RF分类均取得了最高的总体精度,FSO紧随其后,表现最差的是SVM-RFE算法。

图6

图6   总体精度比较

Fig.6   Comparison of overall accuracy


但是通过对8个组合的生产者和用户精度分析可以发现,基于SVM-RFE的分类精度较低的主要原因是在对榆树、杨树和刺槐等阔叶树的区分上乏力(表8~9)。考虑到对比3种优选方法结果时发现C5.0与SVM-RFE存在巨大差异,研究认为基于叶变色和落叶期影像构建的光谱特征对阔叶树的区分具有重要意义,光谱特征在树种分类尤其是阔叶树种区分中的贡献要大于纹理特征;纹理特征冗余现象严重,大量的纹理特征对提升分类精度意义不大。鉴于FSO优选后的特征在RF方法上表现较好,且其基本囊括了另外两种方法所优选的特征,研究利用基于FSO优选特征建立的RF模型对特征的重要性进行分析,并列出对树种分类及分类精度下降有重要影响的前15个特征(图7),验证了上述分析。

图 7

图 7   特征重要性比较

Fig.7   Comparison of the importance of feature


通过对特征优选方法分类结果和耗时进行综合考量,认为C5.0算法可以以极短的时间优选出对分类具有重要意义的特征,应属本研究中最优的特征优选方法,而SVM-RFE因部分关键特征缺失同时未能很好地删除冗余的纹理特征,且运算时间较长,属本研究中表现最差的特征优选方法。

其次是对分类器的讨论。SVM在4种特征维度下表现稳定,即使是在缺失部分关键特征的情况下其精度也未发生剧烈下降;在存在大量冗余特征的情况下,其也没有发生“休斯效应”,研究认为这应与其最终决策函数只由少数的支持向量而不是样本的特征数量所决定有关。RF虽然没能像SVM一样保持稳定,但是其在分类结果上的表现也称得上优异。至于其在SVM-RFE特征维度下分类精度产生剧烈下降,研究认为是关键特征缺失及大量冗余特征共同作用所致。虽然RF在确定树种每个节点时会依据基尼系数对候选特征进行分裂测试并选取最优特征,但候选特征是从用于分类的特征中随机选取的且数量是受Mtry控制的,倘若用于分类的特征中对分类无意义的特征占据支配地位或关键性特征缺失,构建树节点的候选特征中很难或者不可能存在具有分类价值的特征。故本研究认为虽然RF运算效率高,对特征维度不敏感,具有特征重要性分析功能,但其仍能从良好的特征优选结果中受益,且已有学者的研究对本观点予以佐证35-36

另一值得注意的现象是在4种特征维度下RF训练模型的分类精度和基于RF分类的研究总体精度均存在一定的差异(图9)。若是研究总体精度高于袋外精度还是符合常理的,因在计算研究总体精度时加入了非林地和灌木林地,二者的分类精度高,有助于总体精度的提升;但恰恰相反的是训练模型的分类精度明显高于研究总体精度。研究认为虽然理论上RF通过建立不同类型的树可以克服过拟合,但是考虑到在研究中Ntree保持默认的设置为500,树的总量不大;且由于实地调查所采的样本总数有限,用于训练的样本较少未必能充分代表总体;这些均有可能造成过拟合的发生。但因没有实验支持,本研究无法给出具体原因,关于RF是否会产生明显的过拟合及其是否对训练样本的数量敏感有待进一步的研究考证。

在综合SVM与RF的分类结果和运算时间后,认为SVM因其稳定的表现和优异的分类结果应属于本研究中最佳的分类器。在研究中并没有发生RF分类精度显著高于SVM的现象,但不能否认的是RF在分类结果上表现同样优异,其在具有强大性能的同时分类效率极高,仍应是日后遥感影像分类中重点研究和应用的分类器。

6 结 语

(1)实现了基于高分二号遥感影像的森林树种分类,取得了最高总体精度为86.90%,Kappa系数为0.85的分类结果。

(2)在树种分类尤其对阔叶树的区分中,光谱特征比纹理特征更为重要;通过对构建重要分类特征所使用的影像的对比,发现相较于停止生长和发芽期的影像,生长旺盛及叶变色和凋落期的影像在树种分类中的作用更加重要。

(3)C5.0无论是在运算效率还是在优选特征的分类表现上,均具有十分突出的表现;其与SVM-RFE相比,在运算时间上节省近2.25 h,分类精度平均提高7.10%,其于FSO相比,在运算时间上节省近6.78 h,分类精度平均提高0.74%。

(4)虽然SVM、RF两种分类器的分类精度均较高,但是SVM在本研究中表现更为稳定,并且本研究中并没有发生RF分类精度显著高于SVM的现象;虽然SVM与RF两种分类器均对特征维度不敏感,但良好的特征优选结果对SVM的分类效率和RF的分类精度仍有重要影响,遥感影像分类中还需对特征优选方法予以足够的重视。

参考文献

Matsuki TYokoya NIwasaki A.

Hyperspectral Tree Species Classification of Japanese Complex Mixed Forest with the Aid of Lidar Data

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,201585):1-11.

[本文引用: 1]

Lei GuangbinLi AinongTan Jianboet al.

Forest Types Mapping in Mountainous Area Using Multi-source and Multi-temporal Satellite Images and Decision Tree Models

[J]. Remote Sensing Technology and Application,2016311):31-41.

[本文引用: 1]

雷光斌李爱农谭剑波.

基于多源多时相遥感影像的山地森林分类决策树模型研究

[J]. 遥感技术与应用,2016311):31-41.

[本文引用: 1]

Yan WeiZhou WenYi Lilonget al.

Research Progress of Remote Sensing Classification and Change Monitoring of Forest Types

[J]. Remote Sensing Technology and Application,2019343):445-454.

颜伟周雯易立龙.

森林类型遥感分类及变化监测研究进展

[J]. 遥感技术与应用,2019343):445-454.

Pasquarella V JHolden C EWoodcock C E.

Improved Mapping of Forest Type Using Spectral-temporal Landsat Features

[J]. Remote Sensing of Environment, 2018210193-207.

[本文引用: 1]

Li Weitao.

Forest Vegetation Classification Using High Resolution Remote Sensing Image

[D]. BeijingBeijing Forestry University2016.

[本文引用: 1]

李伟涛.

高分辨率遥感森林植被分类提取研究

[D]. 北京北京林业大学2016.

[本文引用: 1]

Immitzer MAtzberger CKoukal T.

Tree Species Classification with Random Forest Using Very High Spatial Resolution 8-Band WorldView-2 Satellite Data

[J]. Remote Sensing,201249):2661-2693.

[本文引用: 1]

Pu RLandry S.

A Comparative Analysis of High Spatial Resolution IKONOS and WorldView-2 Imagery for Mapping Urban Tree Species

[J]. Remote Sensing of Environment,2012124516-533.

Liu HuaipengAn HuijunWang Binget al.

Tree Species Classification Using WorldView-2 Images based on Recursive Texture Feature Elimination

[J]. Journal of Beijing Forestry University,2015378):53-59.

刘怀鹏安慧君王冰.

基于递归纹理特征消除的WorldView-2树种分类

[J]. 北京林业大学学报,2015378):53-59.

Li DanKe YinghaiGong Huiliet al.

Urban Tree Species Classification with Machine Learning Classifier Using WorldView-2 Imagery

[J]. Geography and Geo-information Science,2016312):84-89.

李丹柯樱海宫辉力.

基于高分辨率遥感影像的城市典型乔木树种分类研究

[J]. 地理与地理信息科学,2016321):84-89.

Majid I ALatif Z AAdnan N A.

Tree Species Classification Using Worldview-3 Data

[C]∥Shah Alam: University Teknologi Malaysia2016.

[本文引用: 1]

Song Minghui, Object-oriented Urban Land Classification with GF-2 Remote Sensing Image

[J]. Remote Sensing Technology and Application,2019343):547-553.

[本文引用: 1]

宋明辉.

基于高分二号数据的面向对象城市土地利用分类研究

[J]. 遥感技术与应用,2019343):547-553.

[本文引用: 1]

Ma XiuqiangPeng LingXu Suninget al.

Application of GF-2 Satellite Data to Mine Geological Environment Investigation in Daye,Hubei Province

[J]. Remote Sensing for Land & Resources,201729Sup.1):127-131.

马秀强彭令徐素宁.

高分二号数据在湖北大冶矿山地质环境调查中的应用

[J]. 国土资源遥感,201729():127-131.

Wang FangYang WunianDeng Xiaoyuet al.

Discussion on Urban Ecological Land Classification Method based on GF-2 Data

[J]. Science of Surveying and Mapping,2018433):71-76.

[本文引用: 1]

王芳杨武年邓晓宇.

高分二号数据的城市生态用地分类方法探讨

[J]. 测绘科学,2018433):71-76.

[本文引用: 1]

Zhu X LLiu D S.

Accurate Mapping of Forest Types Using Dense Seasonal Landsat Time-series

[J]. ISPRS Journal of Photogrammetry and Remote Sensing,20149611):1-11.

[本文引用: 2]

Howard D MWylie B K.

Annual Crop Type Classification of the US Great Plains for 2000 to 2011

[J]. Photogrammetry and Remote Sensing,2014806):537-549.

[本文引用: 1]

Evans T LCosta MTomas W Met al.

Large-scale Habitat Mapping of the Brazilian Pantanal Wetland: A Synthetic Aperture Radar Approach

[J]. Remote Sensing of Environment,201415589-108.

[本文引用: 2]

Mao XuegangCheng WenquWei Jingyuet al.

Effect and Evaluation of Segmentation Scale on Object-based Forest Species Classification

[J]. Scientia Silvae Sinicae,20175312):73-83.

[本文引用: 1]

毛学刚陈文曲魏晶昱.

分割尺度对面向对象树种分类的影响及评价

[J]. 林业科学,20175312):73-83.

[本文引用: 1]

Zhu YongsenZeng YongnianZhang Meng.

Extract of Land Use/Cover Information based on HJ Satellites Data and Object-oriented Classification

[J]. Transactions of the Chinese Society of Agricultural Engineering,20173314):258-265.

[本文引用: 1]

朱永森曾永年张猛.

基于HJ卫星数据与面向对象分类的土地利用/覆盖信息提取

[J]. 农业工程学报,20173314):258-265.

[本文引用: 1]

Hao LongChen YongfuLiu Huaet al.

Object-oriented Forest Classification of Linzhi County based on CART Decision Tree with Texture Information

[J]. Remote Sensing Technology and Application,2017322):386-394.

郝泷陈永福刘华.

基于纹理信息CART决策树的林芝县森林植被面向对象分类

[J]. 遥感技术与应用,2017322):386-394.

Phiri DMorgenroth JXu Cet al.

Effects of Pre-processing Methods on Landsat OLI-8 Land Cover Classification Using OBIA and Random Forests Classifier

[J]. International Journal of Applied Earth Observation and Geoinformation,201873170-178.

[本文引用: 2]

Liu Yan.

Study on Kernel Function of Support Vector Machine

[D]. Xi'anXidian University2012.

[本文引用: 2]

刘琰.

支持向量机核函数的研究

[D]. 西安西安电子科技大学2012.

[本文引用: 2]

Song RongjieNing JifengChang Qingruiet al.

Kiwifruit Orchard Mapping based on Wavelet Textures and Random Forest

[J]. Transactions of The Chinese Society of Agricultural Machinery, 2018494):222-231.

[本文引用: 2]

宋荣杰宁纪锋常庆瑞.

基于小波纹理和随机森林的猕猴桃果园遥感提取

[J]. 农业机械学报,2018494):222-231.

[本文引用: 2]

Ren Xinyu.

Urban Forest Vegetation Classification in Consideration of Vegetation Phenology based on High Spatial Resolution Satellite Imagery

[D]. NanjingNanjing Forestry University2016.

[本文引用: 1]

任芯雨.

考虑植被季相节律的高分辨率遥感影像城市森林分类

[D]. 南京南京林业大学2016.

[本文引用: 1]

Bai Jinting.

The Forest Classification Combining Multidimensional Features based on High-resolution Remote Sensing Images

[D]. BeijingBeijing Forestry University2016.

[本文引用: 1]

白金婷.

结合高分辨率遥感影像多维特征的森林分类

[D]. 北京北京林业大学2016.

[本文引用: 1]

Ma Haoran.

Object-based Remote Sensing Image Classification of Forest based on Multi-level Segmentation

[D]. BeijingBeijing Forestry University2014.

[本文引用: 1]

马浩然.

基于多层次分割的遥感影像面向对象森林分类

[D]. 北京北京林业大学2014.

[本文引用: 1]

Li Chungan.

Object-oriented Classification of Forest Cover Using SPOT5 Imagery

[D]. BeijingBeijing Forestry University2009.

[本文引用: 1]

李春干.

面向对象的SPOT5图像森林分类研究

[D]. 北京北京林业大学2009.

[本文引用: 1]

Hao Pengyu.

Crop Classification Using Time Series Remote Sensing Data

[D]. BeijingInstitute of Remote Sensing and Digital Earth2017.

[本文引用: 1]

郝鹏宇.

基于多时相遥感数据的农作物分类研究

[D]. 北京中国科学院遥感与数字地球研究所2017.

[本文引用: 1]

Dalponte MOrka H OGobakken Tet al.

Tree Species Classification in Boreal Forests with Hyperspectral Data

[J]. IEEE Transactions on Geoscience and Remote Sensing,2013515):2632-2645.

[本文引用: 1]

Millard KRichardson M.

On the Importance of Training Data Sample Selection in Random Forest Image Classification: A Case Study in Peatland Ecosystem Mapping

[J]. Remote Sensing,201577):8489-8515.

[本文引用: 1]

Congalton R G.

A Review of Assessing the Accuracy of Classification of Remotely Sensed Data

[J]. Remote Sensing of Environment,19913735-46.

[本文引用: 1]

Belgiu MDragut L.

Random Forest in Remote Sensing: A Review of Applications and Future Directions

[J]. ISPRS Journal of Photogrammetry and Remote Sensing,201611424-31.

[本文引用: 1]

Ghosh AJoshi P K.

A Comparison of Selected Classification Algorithms for Mapping Bamboo Patches in Lower Gangetic Plains Using Very High Resolution WorldView 2 Imagery

[J]. International Journal of Applied Earth Observation and Geoinformation,2014261):298-311.

[本文引用: 1]

Rodriguez-Galiano V FChica-Olmo MAbarca-Hemandez Fet al.

Random Forest Classification of Mediterranean Land Cover Using Multi-seasonal Imagery and Multi-seasonal Texture

[J]. Remote Sensing of Environment,201212193-107.

[本文引用: 1]

Cheng XimengShen ZhanfengXing Tingyanet al.

Efficiency and Accuracy Analysis of Multispectral Image Classification based on mRMR Feature Selection Method

[J]. Journal of Geo-information Science,2016186):815-823.

[本文引用: 1]

程希萌沈占锋邢廷炎.

基于mRMR特征优选算法的多光谱遥感影像分类效率精度分析

[J]. 地球信息科学, 2016186):815-823.

[本文引用: 1]

Guan H YLi J TChapman Met al.

Integration of Orthoimagery and LiDAR Data for Object-based Urban Thematic Mapping Using Random Forests

[J]. International Journal of Remote Sensing,20133414):5166-5186.

[本文引用: 1]

Mishra N BCrews K A.

Mapping Vegetation Morphology Types in a Dry Savanna Ecosystem: Integrating Hierarchical Object-based Image Analysis with Random Forest

[J]. International Journal of Remote Sensing,2014353):1175-1198.

[本文引用: 1]

/