基于高分二号遥感影像的树种分类方法
Classification Method of Tree Species based on GF-2 Remote Sensing Images
通讯作者:
收稿日期: 2018-10-13 修回日期: 2019-09-19
基金资助: |
|
Received: 2018-10-13 Revised: 2019-09-19
关键词:
Keywords:
本文引用格式
李哲, 张沁雨, 彭道黎.
Li Zhe, Zhang Qinyu, Peng Daoli.
1 引 言
高空间分辨率遥感影像比中低空间分辨率遥感影像在空间信息、纹理信息等方面更加精确和丰富,其在林业遥感方面有着广泛的应用并使林业遥感向精准化方向不断发展[5]。目前,利用高空间分辨率遥感影像是基于遥感影像实现树种分类的研究热点和难点,国内外有大量学者利用其成功地实现了树种分类[6-10];但随着研究的深入,高空间分辨率遥感影像光谱分辨率较低、纹理信息冗余处理难度大等问题逐渐暴露出来,如何高效而精确地利用其实现树种分类已成为亟待解决的问题。此外,我国研发的高分二号(GF-2)卫星可提供空间分辨率优于1 m的遥感影像,这标志着我国民用遥感卫星进入亚米级的“高分时代”,自GF-2升空以来,其下传的数据已广泛应用于土地、矿产等行业领域[11-13],但在森林树种分类方面的应用并不多见。
在遥感影像分类中,面向对象分类是针对高分辨率遥感影像的特性而提出的分类方法,其弥补了基于像元分类方法的不足,可有效抑制“椒盐现象”的发生,在地类及森林树种分类方面应用广泛[17-20]。支持向量机(Support Vector Machines, SVM)自20世纪90年代被提出以来,在文本分类、人脸识别、图像处理与识别方面已得到了广泛的应用,理论基础和实现途径成熟[21]。随机森林(Random Forest, RF) 是一种树型集成分类器,因其具有运算速度快和对噪声数据不敏感等优势,近年来在土地分类和树种识别方面备受关注[22]。树木存在着发芽、展叶、叶变色以及落叶等周期性的自然现象,即物候现象。研究表明,当采用存在明显物候变化的遥感数据进行树种分类时,可更有把握对树种进行区分[23]。
本研究采用6期存在物候变化的GF-2影像,利用SVM-RFE、C5.0决策树以及FSO 3种特征优选方法进行特征优选,并结合面向对象的SVM、RF两种分类器对森林树种进行分类,旨在探索能够高效精确地实现树种分类的特征优选和分类器的组合,以期为基于GF-2影像快速准确地获取森林树种分布信息提供依据。
2 研究区及数据集
2.1 研究区概况
八达岭国家森林公园位于北京市西北部延庆区境内,距北京市区60 km,地理坐标为40°15′~40°22′ N,115°55′~116°03′ E。公园地处燕山山脉和太行山山脉交汇处,地势西高东低,沟谷纵横,平均海拔780 m,最高海拔1 238 m,最低海拔450 m。公园作为京西北重要的绿色生态屏障,现植被覆盖率高达到96%,森林覆盖率已到达57%,公园内树种主要有油松(Pinus tabulaeformis Carr)、华北落叶松(Larix principis-rupprechtii Mayr)、侧柏(Platycladus orientalis (Linn.) Franco)、元宝枫(Acer truncatum Bunge)、刺槐(Robinia pseudoacacia Linn)、榆树(Ulmus pumila Linn)、山杏(Armeniaca sibirica (Linn.) Lam)、杨树(Populus L)等。
受多期遥感影像覆盖区域的限制,所选研究区为八达岭国家森林公园东北部的主体部分(图1)。研究区内地势陡峭,实地调查难度大,且区域内景点密集,游客众多;通过遥感手段实现森林树种分类对当地森林资源的管理和森林游憩价值的充分发挥意义重大。
图1
图1
研究区域位置与外业调查点分布图
(a) 研究区域位置 (b) 2018年4月25日获取的真彩色影像
Fig.1
Location of the study area and points of field investigation
2.2 数据收集及处理
表 1 影像信息统计
Table 1
序号 | 采集时间 | 产品号 | 对应生长期 |
---|---|---|---|
1 | 2014-10-17 | 1065695 | 变色初期 |
2 | 2017-01-27 | 2149217 | 停止生长期 |
3 | 2017-03-07 | 2223865 | 发芽初期 |
4 | 2017-05-15 | 2359849 | 生长旺盛期 |
5 | 2017-11-04 | 2742984 | 落叶初期 |
6 | 2018-04-25 | 3144010 | 展叶末期 |
首先以中国资源卫星应用中心提供的GF-2绝对辐射定标系数对影像多光谱数据进行辐射定标,将全色数据定标为表观反射率,并利用ENVI 5.3中的FLAASH模块对多光谱辐射定标之后的辐亮度图像进行大气校正;然后利用DEM数据对影像进行正射校正,并以提供方校正好的2014年影像为基准影像,对剩余影像进行配准,将误差控制在1个像元内;再利用DEM数据和SCS+C模型对影像进行地形校正,并将校正好的多光谱和全色数据进行图像融合[24],最后利用研究区边界对融合后的影像进行裁剪,获得6期研究区范围的影像。
3 研究方法
3.1 图像分割及对象特征提取
在面向对象的分类方法中,影像对象的获取和对象特征的提取是遥感影像分类的基础;影像对象质量将直接对地物分类的效率和精度产生重要影响,而关键对象特征的有无决定了能否完成不同地物的区分。因此,影像分割参数及尺度的确定和对象特征的提取成为影像分类效果的关键因素。
在以往分类效果较好的研究中,影像分割参数及尺度多通过试错法获得,而常用的对象特征包括光谱、专题指数和纹理等特征[18-20]。故本研究以eCognition Developer为平台,使用6期融合后的影像叠合作为输入数据进行多尺度分割,通过试错法选择适宜的分割参数,并利用ESP(Estimation of Scale Parameter)工具确定最优分割尺度[25];所提取的特征为通过24个波段(表1)构建的光谱、植被指数、及基于4个方向综合的灰度共生矩阵(The Gray Level Co-occurrence Matrix, GLCM)和灰度差向量(The Gray-level Difference Vector, GLDV)的纹理3大类共410个[26](表2)。
表 2 特征统计
Table 2
特征类别 | 特征 | 数量 |
---|---|---|
光谱特征 | 亮度(Brightness) | 1 |
均值(Mean) | 24 | |
标准差(Standard deviation) | 24 | |
比率(Ratio) | 24 | |
最大差异度量(Max. diff.) | 1 | |
植被指数 | 差值植被指数(DVI) | 6 |
绿色归一化植被指数(GNDVI) | 6 | |
归一化植被指数(NDVI) | 6 | |
再归一化植被指数(RDVI) | 6 | |
比值植被指数(RVI) | 6 | |
土壤调节植被指数(SAVI) | 6 | |
纹理特征 | GLCM角二阶矩(GLCM.Ang.2nd moment) | 25 |
GLCM反差(GLCM.Contrast ) | 25 | |
GLCM相关性(GLCM.Correlation) | 25 | |
GLCM异质性(GLCM.Dissimilarity) | 25 | |
GLCM熵(GLCM.Entropy) | 25 | |
GLCM同质性(GLCM.Homogeneity) | 25 | |
GLCM均值(GLCM.Mean) | 25 | |
GLCM标准差(GLCM.StdDev.) | 25 | |
GLDV角二阶矩(GLDV.Ang.2nd moment) | 25 | |
GLDV反差(GLDV.Contrast) | 25 | |
GLDV熵(GLDV.Entropy) | 25 | |
GLDV均值(GLDV.Mean) | 25 |
3.2 分层分类
分层分类指的是在进行分类时,首先进行初步分类,例如先将地物分为城镇、水体、农田和林地等类别,然后在此基础上,针对所需要的类别进行精细分类。其在待分类别较多且类别间具有隶属关系的情况下可以取得优异的结果[27]。本研究根据国家标准《土地利用现状分类》GB/T 21010-2017和2014年研究区森林资源二类调查数据,设计了3个层次的分类。
第一层分类是将研究区域划分为林地和非林地,故分割作用于整个研究区。鉴于有关林地和非林地分类的研究较为成熟,在第一层分类中未进行特征优选,直接以2014年10月17日、2017年5月15日、2018年4月25日影像的NDVI及GNDVI作为分类特征,采用SVM完成分类。
第二层分类是将第一层分类中获得的林地进行细化,故分割只在林地上进行。鉴于2014年森林资源二类调查数据显示研究区内仅有乔木林地、灌木林地及6个小班的未成林造林地,同时考虑到现在距2014年调查已过去4年多,研究将第二层分类定为乔木林地与灌木林地的区分。因乔木林地和灌木林地的区分存在一定难度,在第二层分类中,研究采用C5.0进行特征优选,利用SVM完成二者的区分。
第三层分类是在乔木林地上实现对油松、华北落叶松、侧柏、元宝枫、刺槐、榆树、山杏和杨树共8种主要树种的区分,分割仅在乔木林地上进行。在第三层中,研究利用3种特征优选方法优选后的特征和全部特征构建四种特征维度,分别采用SVM和RF在4种特征维度下完成树种的分类。
3.3 特征优选方法和分类器
3.3.1 特征优选方法
利用6期影像提取了数量庞大的对象特征,为降低特征冗余,并比较特征优选方法的优劣,利用C5.0、SVM-RFE、FSO 3种方法进行特征优选。其中SVM-RFE是在n个特征中每次递归删除一个无关紧要的特征,直至找到可以使类之间的区分最大化的大小为r(r <n)的子集[14];C5.0算法是C4.5算法的改进版,其计算速度高,对计算内存占用少,适用于处理大数据集[15];FSO通过计算不同特征空间组合中各类样本间的最小J-M距离,距离越大,分离度越大,最大分离度的即为最佳特征空间组合[16]。其中,C5.0及SVM-RFE均在R3.5.0上予以实现,而FSO则是基于eCognition Developer平台。
3.3.2 分类器
SVM是构建于VC维理论和结构风险最小理论上的统计学习方法,它的原理是根据训练样本信息寻求模型复杂性和学习能力之间的最佳平衡点,从而获得最优推广能力[21]。在本研究中SVM通过eCognition Developer实现,其参数设置保持默认,Kernel type使用linear,C内核选择2。
RF是一种由多棵分类与回归树(Classification and Regression Tree, CART)构成的集成分类器,其主要包括训练和分类两个阶段。在训练阶段,首先采用随机可重复的自助取样策略(bootstrap)选取训练样本,然后针对每个训练样本集利用CART 算法构建分类树,对树中每个节点,先从所有特征中为其随机选取Mtry个特征,并依据基尼系数进行分裂测试并选取最优特征。重复上述取样、建树过程Ntree次,最终建立由Ntree棵决策树构成的随机森林。在分类阶段,每棵决策树都对新样本的类别进行独立判断,最后汇总所有决策树的分类结果,采用多数投票原则输出最终结果,在bootstrap取样过程中,约有1/3的样本未被选中,这些样本称为袋外(Out Of Bag, OOB)数据,使用OOB数据对RF模型进行评估可得到OOB精度或OOB误差[22]。本研究中的RF是在R3.5.0构建的,具体分类的实现是通过R和ArcGIS协调完成的。
3.4 精度评价
利用混淆矩阵(Confusion Matrix)中的用户精度(Use's Accuracy)、生产者精度(Producer's Accuracy)、总体分类精度(Overall Accuracy)和Kappa系数对影像的分类结果进行评价[30]。其中,第一、二层分类在渔网布点的基础上通过影像目视解译同时辅以森林资源二类数据和外业数据的形式获得验证样本877个;在完成第三层分类后,以外业调查中除去训练样本后的32个山杏、53个侧柏、109个油松、30个榆树、42个刺槐、19个华北落叶松、48个元宝枫、37个杨树、111个灌木林地及61个非林地为验证样本对总体分类情况进行验证。
4 结果与分析
4.1 尺度参数的确定
根据对影像分割的尝试,本研究在形状因子为0.3,紧致度因子为0.5时可取得很好的分割效果;当尺度参数设置为350时,影像存在明显的“欠分割”现象,而尺度参数设置为150时,影像分割又较为破碎,均不适合一、二层次的分类。故利用ESP在150~350区间内寻找适宜的尺度参数(图2)。最终确定第一层分割尺度参数为299,第二层为234。
图2
因森林公园中乔木间存在一定程度的混交,先前ESP的尺度参数区间不适宜树种的区分,故重新对第三层尺度参数进行确定。通过对影像的分割尝试发现,当尺度参数下降到80时获得的对象数量急剧增加,影像分割过于破碎,于是以80为起点,利用ESP寻找适宜树种分类的尺度参数,最终确定为99(图3)。
图3
4.2 特征优选
表 3 第二层分类优选特征及重要性排名
Table 3
排名 | 特征参数 | 排名 | 特征参数 | 排名 | 特征参数 |
---|---|---|---|---|---|
1 | GLCM.Ang.2nd.moment.1_B | 2 | GNDVI.3 | 3 | Ratio.1_G |
4 | Ratio.5_N | 5 | Ratio.1_R | 6 | RVI.1 |
7 | Mean.1_R | 8 | Mean.6_N | 9 | GLCM.Homogeneity. |
10 | GLCM.Entropy.4_G | 11 | GNDVI.1 | 12 | GLCM.Entropy.3_R |
13 | GLCM.Homogeneity.1_N | 14 | Standard.deviation.1_N | 15 | Standard.deviation.4_R |
16 | Standard.deviation.1_G | 17 | GLCM.StdDev.2_G | 18 | GLCM.Homogeneity.3_R |
19 | GLCM.Ang.2nd.moment.4_N | 20 | Ratio.4_N | 21 | GLDV.Contrast.5_G |
22 | Standard.deviation.4_G | 23 | GLCM.Ang.2nd.moment.1_N | 24 | GLCM.Mean.1_N |
表 4 优选特征及重要性排名(C5.0)
Table 4
排名 | 特征参数 | 排名 | 特征参数 | 排名 | 特征参数 |
---|---|---|---|---|---|
1 | Ratio.3_R | 2 | Ratio.5_B | 3 | Ratio.1_G |
4 | Mean.1_G | 5 | SAVI.1 | 6 | Standard.deviation.1_B |
7 | Ratio.2_B | 8 | Mean.6_R | 9 | Standard.deviation.1_R |
10 | Ratio.4_G | 11 | Mean.6_B | 12 | Ratio.2_R |
13 | GLCM.Correlation |
表 5 优选特征及重要性排名(SVM-RFE)
Table 5
排名 | 特征参数 | 排名 | 特征参数 | 排名 | 特征参数 |
---|---|---|---|---|---|
1 | Ratio.1_R | 2 | Mean.4_R | 3 | SAVI.1 |
4 | RVI.1 | 5 | NDVI.1 | 6 | Mean.4_N |
7 | GLDV.Ang.2nd.moment.6_G | 8 | Mean.4_G | 9 | DVI.4 |
10 | GLDV.Entropy.6_G | 11 | Ratio.3_R | 12 | GLCM.Dissimilarity.6_G |
13 | GLDV.Mean.6_G | 14 | GLCM.Homogeneity.6_G | 15 | GLCM.Correlation.6_G |
16 | GLDV.Contrast.6_G | 17 | GLCM.Contrast.6_G | 18 | RDVI.4 |
19 | GLDV.Ang.2nd.moment.6_B | 20 | Mean.4_B | 21 | Ratio.5_R |
22 | GLDV.Ang.2nd.moment.6_R | 23 | SAVI.3 | 24 | RVI.3 |
25 | NDVI.3 | 26 | GLDV.Entropy.6_B | 27 | GLDV.Entropy.6_R |
28 | GLCM.Dissimilarity.6_B | 29 | GLDV.Mean.6_B | 30 | GLCM.Homogeneity.6_N |
31 | GLCM.Dissimilarity.6_R | 32 | GLDV.Mean.6_R | 33 | GLCM.Homogeneity.6_B |
34 | GLCM.Correlation.6_B | 35 | Ratio.3_N | 36 | SAVI.5 |
37 | RVI.5 | 38 | NDVI.5 | 39 | GLCM.Homogeneity.6_R |
40 | GLDV.Ang.2nd.moment.6_N | 41 | GLCM.Correlation.6_R | 42 | GLCM.Contrast.6_B |
43 | GLDV.Contrast.6_B | 44 | GNDVI.3 | 45 | GLCM.Contrast.6_R |
46 | GLDV.Contrast.6_R | 47 | RDVI.3 | 48 | Ratio.5_N |
表 6 优选特征及重要性排名(FSO)
Table 6
排名 | 特征参数 | 排名 | 特征参数 | 排名 | 特征参数 |
---|---|---|---|---|---|
1 | Mean.4_N | 2 | DVI.1 | 3 | SAVI.6 |
4 | GLDV.Entropy.6_G | 5 | GLCM.Correlation.1_B | 6 | GLCM.Correlation.4_R |
7 | GLCM.Correlation.3_N | 8 | GLCM.Entropy.3_N | 9 | GLCM.Correlation.2_R |
10 | RVI.1 | 11 | Mean.6_R | 12 | GLCM.Correlation.1_N |
13 | GLCM.StdDev | 14 | GLDV.Entropy.6_N | 15 | Mean.1_R |
16 | GLCM.Correlation.2_N | 17 | Mean.5_R | 18 | GLCM.Correlation.3_B |
19 | GLCM.Correlation.4_B | 20 | GLCM.StdDev.6_G | 21 | Standard.deviation.4_N |
22 | GLDV.Mean.6_N | 23 | Standard.deviation.6_N | 24 | GLCM.Entropy.4_B |
25 | Standard.deviation.4_B | 26 | GLCM.Correlation.1_R | 27 | GLCM.Correlation.5_N |
28 | Mean.1_N | 29 | Ratio.1_G | 30 | GLCM.Correlation.5_R |
31 | GLCM.Correlation.3_R | 32 | Mean.5_G | 33 | GLCM.Correlation.2_G |
34 | GLCM.Entropy.1_N | 35 | GLDV.Entropy.2_N | 36 | GLCM.Correlation |
37 | GLCM.Correlation.4_G | 38 | Brightness | 39 | GLCM.Dissimilarity.6_B |
40 | Mean.2_R | 41 | Standard.deviation.4_G | 42 | DVI.4 |
43 | GLCM.Dissimilarity.2_R | 44 | GLDV.Entropy.3_N | 45 | GLCM.Correlation.1_G |
46 | GLCM.Correlation.4_N | 47 | GLCM.Dissimilarity.6_N | 48 | NDVI.6 |
49 | GLDV.Entropy.1_N | 50 | GLCM.Entropy.6_N |
可以看出,第二层分类中所优选出的特征里纹理特征数量较多,符合乔木与灌木区分的一般规律;而第三层分类中,以优选所得特征较多的FSO作为参考对另两种方法所选出特征进行分析可以发现,C5.0排名为2、7、12的特征为其所独有,SVM-RFE中排名为7、18、19、21、22、23、25、35、36、38、46、47的特征为其所独有,3种方法共有特征为Ratio.3_R、SAVI.1,且这两个特征在3种结果中的排名均比较靠前。值得注意的是C5.0结果中基于叶变色和落叶期影像构建的特征占比很大,且除两个共有特征外其他所有特征在SVM-RFE的结果中均不存在,而SVM-RFE结果中基于展叶和生长旺盛期影像构建的特征占了绝大部分,且其包含许多纹理特征是C5.0结果中所缺失的。
进行特征优选的重要作用之一就是减少特征维数以提高分类器的效率,所以也应对特征优选方法的耗时进行考量。本研究第三层分类中,3种特征优选方法所用数据相同可进行比较,其中C5.0用时小于0.01 h,耗时最短;SVM-RFE因需对特征进行逐个删除,耗时较长,用时2.25 h,FSO在耗时上表现最差,用时高达6.78 h。
4.3 分类结果
4.3.1 第一、二层分类
通过混淆矩阵可以得出(表7),第一、二层分类总体精度89.97%,Kappa系数0.82。通过分析认为,其非林地用户精度较低是因为紧挨林地的非林地对象中混入部分林地所致;乔木林地生产者精度较低是由于研究区东南部存在一定的侧柏幼龄林被划分为灌木林地所致,但乔木林地的用户精度较高,可在此基础上进行树种的细分。
表 7 乔木林地与灌木林地混淆矩阵
Table 7
类别 | 灌木 林地 | 乔木 林地 | 非林地 | 用户精度 /% |
---|---|---|---|---|
总体精度:89.97% | Kappa系数:0.82 | |||
灌木林地 | 383 | 46 | 1 | 89.07 |
乔木林地 | 27 | 340 | 1 | 92.39 |
非林地 | 4 | 9 | 66 | 83.54 |
生产者精度/% | 92.51 | 86.08 | 97.06 |
4.3.2 第三层分类
在利用SVM完成4个特征维度下的分类后,使用前述542个验证样本构建混淆矩阵进行精度验证,精度比较结果如表8所示。
表8 不同特征维度下SVM的精度比较
Table 8
C5.0 | SVM-RFE | FSO | ALL | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
生产者精度/% | 用户精度/% | 生产者精度/% | 用户精度/% | 生产者精度/% | 用户精度/% | 生产者精度/% | 用户精度/% | ||||
灌木林地 | 92.79 | 90.35 | 92.79 | 90.35 | 92.79 | 90.35 | 92.79 | 90.35 | |||
非林地 | 100.00 | 91.04 | 100.00 | 91.04 | 100.00 | 91.04 | 100.00 | 91.04 | |||
山杏 | 93.75 | 81.08 | 78.13 | 65.79 | 84.38 | 72.97 | 84.38 | 81.82 | |||
侧柏 | 86.79 | 68.66 | 81.13 | 74.14 | 92.45 | 70.00 | 92.45 | 70.00 | |||
榆树 | 76.67 | 69.70 | 63.33 | 61.29 | 73.33 | 73.33 | 73.33 | 75.86 | |||
刺槐 | 64.29 | 79.41 | 57.14 | 66.67 | 61.90 | 81.25 | 61.90 | 76.47 | |||
油松 | 85.32 | 96.88 | 85.32 | 91.18 | 87.16 | 96.94 | 84.40 | 94.85 | |||
元宝枫 | 85.42 | 95.35 | 70.83 | 89.47 | 77.08 | 86.05 | 85.42 | 85.42 | |||
杨树 | 81.08 | 96.77 | 67.57 | 71.43 | 81.08 | 88.24 | 78.38 | 90.63 | |||
华北落叶松 | 89.47 | 85.00 | 89.47 | 73.91 | 89.47 | 100.00 | 89.47 | 94.44 | |||
总体精度/% | 86.90 | 81.92 | 86.16 | 86.16 | |||||||
Kappa系数 | 0.85 | 0.79 | 0.84 | 0.84 |
图 4
本研究将Ntree和Mtry均设定为默认,在RF完成4个特征维度下的分类后,使用验证样本构建了混淆矩阵进行精度验证,其精度比较结果如表9所示。
表 9 不同特征维度下RF的精度比较
Table 9
C5.0 | SVM-RFE | FSO | ALL | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
生产者精度/% | 用户精度/% | 生产者精度/% | 用户精度/% | 生产者精度/% | 用户精度/% | 生产者精度/% | 用户精度/% | ||||
灌木林地 | 92.79 | 90.35 | 92.79 | 90.35 | 92.79 | 90.35 | 92.79 | 90.35 | |||
非林地 | 100.00 | 91.04 | 100.00 | 91.04 | 100.00 | 91.04 | 100.00 | 91.04 | |||
山杏 | 87.50 | 87.50 | 71.88 | 56.10 | 84.38 | 84.38 | 81.25 | 83.87 | |||
侧柏 | 83.02 | 60.27 | 69.81 | 60.66 | 83.02 | 64.71 | 79.25 | 62.69 | |||
榆树 | 63.33 | 63.33 | 56.67 | 44.74 | 66.67 | 52.63 | 66.67 | 57.14 | |||
刺槐 | 61.90 | 78.79 | 38.10 | 51.61 | 59.52 | 78.13 | 59.52 | 73.53 | |||
油松 | 80.73 | 95.65 | 81.65 | 91.75 | 80.73 | 96.70 | 80.73 | 94.62 | |||
元宝枫 | 89.58 | 97.73 | 54.17 | 81.25 | 85.42 | 97.62 | 85.42 | 97.62 | |||
杨树 | 83.78 | 93.94 | 56.76 | 58.33 | 81.08 | 88.24 | 78.38 | 90.63 | |||
华北落叶松 | 89.47 | 70.83 | 89.47 | 68.00 | 89.47 | 70.83 | 89.47 | 62.96 | |||
总体精度/% | 84.87 | 75.65 | 84.13 | 83.39 | |||||||
Kappa系数 | 0.83 | 0.72 | 0.82 | 0.81 |
完成分类所用时间是衡量分类器优劣的标准之一。本研究第三层分类中,两种分类器虽所处平台不同,但仍可对同一分类器不同特征维度下的分类时间进行比较,进而侧面反映二者分类效率的差异。SVM分类所用时间与特征维度成正相关。利用全部特征进行分类用时1.92 h;经C5.0优选的特征进行分类用时0.25 h,与利用全部特征相比在分类效率上提高了86.98%[34];利用SVM-RFE和FSO优选特征的分类效率与利用全部特征相比,分别提高了61.98%和13.02%。在4种特征维度下RF的分类都在0.01 h内完成,且其时间消耗并没因特征维度的变化而剧烈改变,故即使平台不同,仍可认为在分类效率方面,RF比SVM更具有优势。
考虑到本研究中分类组合较多,故仅展示总体精度最高(C5.0+SVM)和最低(SVM-RFE+RF)分类组合的结果(图5)用以比较。
图5
5 讨 论
在第三层分类中研究使用不同的特征优选方法和分类器实现了8种分类 ,现对分类结果进行汇总讨论。
首先是特征优选方面,通过对总体精度的比较可以发现(图6),3种特征优选方法中,C5.0算法的表现最为优异,在其优选特征下的SVM、RF分类均取得了最高的总体精度,FSO紧随其后,表现最差的是SVM-RFE算法。
图6
但是通过对8个组合的生产者和用户精度分析可以发现,基于SVM-RFE的分类精度较低的主要原因是在对榆树、杨树和刺槐等阔叶树的区分上乏力(表8~9)。考虑到对比3种优选方法结果时发现C5.0与SVM-RFE存在巨大差异,研究认为基于叶变色和落叶期影像构建的光谱特征对阔叶树的区分具有重要意义,光谱特征在树种分类尤其是阔叶树种区分中的贡献要大于纹理特征;纹理特征冗余现象严重,大量的纹理特征对提升分类精度意义不大。鉴于FSO优选后的特征在RF方法上表现较好,且其基本囊括了另外两种方法所优选的特征,研究利用基于FSO优选特征建立的RF模型对特征的重要性进行分析,并列出对树种分类及分类精度下降有重要影响的前15个特征(图7),验证了上述分析。
图 7
通过对特征优选方法分类结果和耗时进行综合考量,认为C5.0算法可以以极短的时间优选出对分类具有重要意义的特征,应属本研究中最优的特征优选方法,而SVM-RFE因部分关键特征缺失同时未能很好地删除冗余的纹理特征,且运算时间较长,属本研究中表现最差的特征优选方法。
其次是对分类器的讨论。SVM在4种特征维度下表现稳定,即使是在缺失部分关键特征的情况下其精度也未发生剧烈下降;在存在大量冗余特征的情况下,其也没有发生“休斯效应”,研究认为这应与其最终决策函数只由少数的支持向量而不是样本的特征数量所决定有关。RF虽然没能像SVM一样保持稳定,但是其在分类结果上的表现也称得上优异。至于其在SVM-RFE特征维度下分类精度产生剧烈下降,研究认为是关键特征缺失及大量冗余特征共同作用所致。虽然RF在确定树种每个节点时会依据基尼系数对候选特征进行分裂测试并选取最优特征,但候选特征是从用于分类的特征中随机选取的且数量是受Mtry控制的,倘若用于分类的特征中对分类无意义的特征占据支配地位或关键性特征缺失,构建树节点的候选特征中很难或者不可能存在具有分类价值的特征。故本研究认为虽然RF运算效率高,对特征维度不敏感,具有特征重要性分析功能,但其仍能从良好的特征优选结果中受益,且已有学者的研究对本观点予以佐证[35-36]。
另一值得注意的现象是在4种特征维度下RF训练模型的分类精度和基于RF分类的研究总体精度均存在一定的差异(图9)。若是研究总体精度高于袋外精度还是符合常理的,因在计算研究总体精度时加入了非林地和灌木林地,二者的分类精度高,有助于总体精度的提升;但恰恰相反的是训练模型的分类精度明显高于研究总体精度。研究认为虽然理论上RF通过建立不同类型的树可以克服过拟合,但是考虑到在研究中Ntree保持默认的设置为500,树的总量不大;且由于实地调查所采的样本总数有限,用于训练的样本较少未必能充分代表总体;这些均有可能造成过拟合的发生。但因没有实验支持,本研究无法给出具体原因,关于RF是否会产生明显的过拟合及其是否对训练样本的数量敏感有待进一步的研究考证。
在综合SVM与RF的分类结果和运算时间后,认为SVM因其稳定的表现和优异的分类结果应属于本研究中最佳的分类器。在研究中并没有发生RF分类精度显著高于SVM的现象,但不能否认的是RF在分类结果上表现同样优异,其在具有强大性能的同时分类效率极高,仍应是日后遥感影像分类中重点研究和应用的分类器。
6 结 语
(1)实现了基于高分二号遥感影像的森林树种分类,取得了最高总体精度为86.90%,Kappa系数为0.85的分类结果。
(2)在树种分类尤其对阔叶树的区分中,光谱特征比纹理特征更为重要;通过对构建重要分类特征所使用的影像的对比,发现相较于停止生长和发芽期的影像,生长旺盛及叶变色和凋落期的影像在树种分类中的作用更加重要。
(3)C5.0无论是在运算效率还是在优选特征的分类表现上,均具有十分突出的表现;其与SVM-RFE相比,在运算时间上节省近2.25 h,分类精度平均提高7.10%,其于FSO相比,在运算时间上节省近6.78 h,分类精度平均提高0.74%。
(4)虽然SVM、RF两种分类器的分类精度均较高,但是SVM在本研究中表现更为稳定,并且本研究中并没有发生RF分类精度显著高于SVM的现象;虽然SVM与RF两种分类器均对特征维度不敏感,但良好的特征优选结果对SVM的分类效率和RF的分类精度仍有重要影响,遥感影像分类中还需对特征优选方法予以足够的重视。
参考文献
Hyperspectral Tree Species Classification of Japanese Complex Mixed Forest with the Aid of Lidar Data
[J]. ,
Forest Types Mapping in Mountainous Area Using Multi-source and Multi-temporal Satellite Images and Decision Tree Models
[J]. ,
基于多源多时相遥感影像的山地森林分类决策树模型研究
[J]. ,
Research Progress of Remote Sensing Classification and Change Monitoring of Forest Types
[J]. ,
森林类型遥感分类及变化监测研究进展
[J]. ,
Improved Mapping of Forest Type Using Spectral-temporal Landsat Features
[J]. ,
Forest Vegetation Classification Using High Resolution Remote Sensing Image
[D].
高分辨率遥感森林植被分类提取研究
[D].
Tree Species Classification with Random Forest Using Very High Spatial Resolution 8-Band WorldView-2 Satellite Data
[J]. ,
A Comparative Analysis of High Spatial Resolution IKONOS and WorldView-2 Imagery for Mapping Urban Tree Species
[J]. ,
Tree Species Classification Using WorldView-2 Images based on Recursive Texture Feature Elimination
[J]. ,
基于递归纹理特征消除的WorldView-2树种分类
[J]. ,
Urban Tree Species Classification with Machine Learning Classifier Using WorldView-2 Imagery
[J]. ,
基于高分辨率遥感影像的城市典型乔木树种分类研究
[J]. ,
Tree Species Classification Using Worldview-3 Data
[C]∥
Song Minghui, Object-oriented Urban Land Classification with GF-2 Remote Sensing Image
[J]. ,
基于高分二号数据的面向对象城市土地利用分类研究
[J]. ,
Application of GF-2 Satellite Data to Mine Geological Environment Investigation in Daye,Hubei Province
[J]. ,
高分二号数据在湖北大冶矿山地质环境调查中的应用
[J]. ,
Discussion on Urban Ecological Land Classification Method based on GF-2 Data
[J]. ,
高分二号数据的城市生态用地分类方法探讨
[J]. ,
Accurate Mapping of Forest Types Using Dense Seasonal Landsat Time-series
[J]. ,
Annual Crop Type Classification of the US Great Plains for 2000 to 2011
[J]. ,
Large-scale Habitat Mapping of the Brazilian Pantanal Wetland: A Synthetic Aperture Radar Approach
[J]. ,
Effect and Evaluation of Segmentation Scale on Object-based Forest Species Classification
[J]. ,
分割尺度对面向对象树种分类的影响及评价
[J]. ,
Extract of Land Use/Cover Information based on HJ Satellites Data and Object-oriented Classification
[J]. ,
基于HJ卫星数据与面向对象分类的土地利用/覆盖信息提取
[J]. ,
Object-oriented Forest Classification of Linzhi County based on CART Decision Tree with Texture Information
[J]. ,
基于纹理信息CART决策树的林芝县森林植被面向对象分类
[J]. ,
Effects of Pre-processing Methods on Landsat OLI-8 Land Cover Classification Using OBIA and Random Forests Classifier
[J]. ,
Study on Kernel Function of Support Vector Machine
[D].
支持向量机核函数的研究
[D].
Kiwifruit Orchard Mapping based on Wavelet Textures and Random Forest
[J]. ,
基于小波纹理和随机森林的猕猴桃果园遥感提取
[J]. ,
Urban Forest Vegetation Classification in Consideration of Vegetation Phenology based on High Spatial Resolution Satellite Imagery
[D].
考虑植被季相节律的高分辨率遥感影像城市森林分类
[D].
The Forest Classification Combining Multidimensional Features based on High-resolution Remote Sensing Images
[D].
结合高分辨率遥感影像多维特征的森林分类
[D].
Object-based Remote Sensing Image Classification of Forest based on Multi-level Segmentation
[D].
基于多层次分割的遥感影像面向对象森林分类
[D].
Object-oriented Classification of Forest Cover Using SPOT5 Imagery
[D].
面向对象的SPOT5图像森林分类研究
[D].
Crop Classification Using Time Series Remote Sensing Data
[D].
基于多时相遥感数据的农作物分类研究
[D].
Tree Species Classification in Boreal Forests with Hyperspectral Data
[J]. ,
On the Importance of Training Data Sample Selection in Random Forest Image Classification: A Case Study in Peatland Ecosystem Mapping
[J]. ,
A Review of Assessing the Accuracy of Classification of Remotely Sensed Data
[J]. ,
Random Forest in Remote Sensing: A Review of Applications and Future Directions
[J]. ,
A Comparison of Selected Classification Algorithms for Mapping Bamboo Patches in Lower Gangetic Plains Using Very High Resolution WorldView 2 Imagery
[J]. ,
Random Forest Classification of Mediterranean Land Cover Using Multi-seasonal Imagery and Multi-seasonal Texture
[J]. ,
Efficiency and Accuracy Analysis of Multispectral Image Classification based on mRMR Feature Selection Method
[J]. ,
基于mRMR特征优选算法的多光谱遥感影像分类效率精度分析
[J]. ,
Integration of Orthoimagery and LiDAR Data for Object-based Urban Thematic Mapping Using Random Forests
[J]. ,
Mapping Vegetation Morphology Types in a Dry Savanna Ecosystem: Integrating Hierarchical Object-based Image Analysis with Random Forest
[J]. ,
/
〈 | 〉 |