img

官方微信

遥感技术与应用, 2022, 37(2): 354-367 doi: 10.11873/j.issn.1004-0323.2022.2.0354

LUCC专栏

基于双树复小波分解的Boosting集成学习土地覆被分类研究

李润祥,1,2,3, 高小红,1,2,3,4, 汤敏1,2,3

1.青海师范大学地理科学学院,青海 西宁 810008

2.青藏高原地表过程与生态保育教育部重点实验室,青海 西宁 810008

3.青海省自然地理与环境过程重点实验室,青海 西宁 810008

4.高原科学与可持续发展研究院,青海 西宁 810008

Study on Boosting Ensemble Learning Land Cover Classification based on Dual-Tree Complex Wavelet Transform

Li Runxiang,1,2,3, Gao Xiaohong,1,2,3,4, Tang Min1,2,3

1.School of Geographical Sciences,Qinghai Normal University,Xining 810008,China

2.MOE Key Laboratory of Tibetan Plateau Land Surface Processes and Ecological,Xining 810008,China

3.Qinghai Province Key Laboratory of Physical Geography and Environmental Process,Xining 810008,China

4.Academy of Plateau Science and Sustainability,Xining 810008,China

通讯作者: 高小红(1963-),女,陕西白水人,博士生导师,教授,主要从事遥感应用与地理空间数据分析研究。E⁃mail:xiaohonggao 226@163.com

收稿日期: 2020-10-12   修回日期: 2022-02-09  

基金资助: 青海省科技厅自然科学基金项目“基于GEE云平台与Landsat卫星长时间序列数据的湟水流域30多年土地利用/土地覆被时空变化研究”.  2021⁃ZJ⁃913

Received: 2020-10-12   Revised: 2022-02-09  

作者简介 About authors

李润祥(1991-),男,陕西宝鸡人,硕士研究生,主要从事遥感应用与地理空间数据分析研究E⁃mail:LRX7471870@163.com , E-mail:LRX7471870@163.com

摘要

近年来,集成学习(Ensemble Learning,EL)分类方法成为土地覆被分类的研究热点,尤其是Boosting集成分类方法具有分类精度高、泛化能力强,在土地覆被分类中得到了显著的应用。但是,Boosting集成分类方法对噪声很敏感,如果训练样本含有噪声时,Boosting算法可能会失效,这是该方法的局限性。为了解决Boosting集成方法在土地覆被分类中存在的问题,有效克服噪声的影响,减少分类结果中的“椒盐”现象和提高分类精度,提出了基于双树复小波分解的Boosting集成学习分类方法。该方法对影像的光谱波段进行一层双树复小波分解,降低图像的噪声,将分解后的各波段作为Boosting集成学习的输入,得到最终的分类结果。实验先后比较了GBDT、XGBoost、LightGBM 3种Boosting集成学习算法在SPOT 6和Sentinel-2A影像上的分类效果。结果表明:①在SPOT 6影像上,3种Boosting集成算法总体分类精度均高于90%;DTCWT-LightGBM分类总体精度最高,达到94.73%,Kappa系数为0.93,比LightGBM总体精度提高了1.1%,Kappa系数提高了0.01;LightGBM分类总体精度比XGBoost分类总体精度提高了1.99%,Kappa系数提高了0.03,比GBDT分类总体精度提高了2.9%,Kappa系数提高了0.04;②在Sentinel-2A影像上,DTCWT-LightGBM分类总体精度最高,达到93.25%,Kappa系数为0.91,比LightGBM分类总体精度提高了1.53%,Kappa系数提高了0.01;LightGBM分类总体精度比XGBoost分类总体精度提高了1.14%,Kappa系数提高了0.02,比GBDT分类总体精度提高了2.53%,Kappa系数提高了0.03;③基于双树复小波分解的Boosting集成学习分类方法,降低了影像的噪音,减少了分类结果中存在的“椒盐”现象,区域一致性更强,提高了分类精度。

关键词: 双树复小波分解 ; Boosting集成学习 ; GBDT ; XGBoost ; LightGBM

Abstract

Ensemble Learning (EL) classification method has become a research hotspot of land cover classification in recent years. Boosting Ensemble Learning classification method has high classification accuracy and strong generalization ability particularly, which has been significantly applied in land cover classification. However,Boosting Ensemble classification method is sensitive to noise. If the training sample contains noise, Boosting algorithm may lose effectiveness, which is the limitation of the method. In order to solve the problems existing in Boosting Ensemble method in the classification of land cover,effectively overcome the influence of noise, reduce the salt and pepper phenomenon in the classification results and improve the classification accuracy, a Boosting Ensemble Learning classification method based on the dual-tree complex wavelet transform is proposed. In this method, the spectral band of the image is transformed by a layer of dual-tree complex wavelet to reduce the image noise. The extracted low-frequency features are taken as the input of Boosting Ensemble Learning to obtain the final classification result. Boosting Ensemble Learning GBDT, XGBoost and LightGBM algorithms are respectively compared classification accuracy and efficiency for SPOT6 and Sentinel-2A image. The results show as follow: (1)For SPOT6 image, the overall classification accuracy of the three Boosting Ensemble algorithms is higher than 90%.LightGBM algorithm after DTCWT has the highest classification accuracy.The overall classification accuracy and Kappa coefficient are 94.73% and 0.93 respectivesly.Two precision values are higher than without the transform of dual-tree complex wavelet by 1.1% and 0.01. LightGBM algorithm classification accuracy and Kappa coefficient are higher than the XGBoost algorithm by 1.99% and 0.03,and are higher than the GBDT algorithm by 2.9% and 0.04.(2) For sentinel-2A image, LightGBM algorithm after DTCWT has the highest classification accuracy.The overall classification accuracy and Kappa coefficient are 93.25% and 0.91 respectivesly.Two precision values are higher than without the transform of dual-tree complex wavelet by 1.53% and 0.01. LightGBM algorithm classification accuracy and Kappa coefficient are higher than the XGBoost algorithm by 1.14% and 0.02,and are higher than the GBDT algorithm by 2.53% and 0.03.(3) After the transform of dual-tree complex wavelet, the Boosting Ensemble Learning classification can reduce the noise of the image, reducing the salt and pepper phenomenon in the classification results, having stronger regional consistency, improving the classification accuracy.

Keywords: The dual-tree complex wavelet transform ; Boosting Ensemble Learning ; GBDT ; XGBoost ; LightGBM

PDF (12169KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李润祥, 高小红, 汤敏. 基于双树复小波分解的Boosting集成学习土地覆被分类研究. 遥感技术与应用[J], 2022, 37(2): 354-367 doi:10.11873/j.issn.1004-0323.2022.2.0354

Li Runxiang, Gao Xiaohong, Tang Min. Study on Boosting Ensemble Learning Land Cover Classification based on Dual-Tree Complex Wavelet Transform. Remote Sensing Technology and Application[J], 2022, 37(2): 354-367 doi:10.11873/j.issn.1004-0323.2022.2.0354

1 引 言

遥感影像的地物类型提取是遥感研究领域的一个重要方面,研究和发展分类方法提高分类效率和精度是遥感应用研究的热点1。遥感影像分类方法具有多样性且不同方法有各自的优缺点。从早期基于基本几何运算与统计模式识别的最小距离分类2和最大似然分类3等方法,发展到基于计算智能和机器学习的人工神经网络4、决策树5,再到基于统计学习理论的支持向量机6,以及近年来发展的半监督学习7、主动学习8、深度学习9-10等分类新方法,各种新型分类器层出不穷,模式识别、机器学习和人工智能在新型遥感影像分类器研发方面发挥着重要作用。遥感影像分类中不同分类器的理论基础和分类原理不同,不同分类器的优缺点不同,在应用中往往具有互补性。因此,集成分类器作为一种新的方法,在遥感领域得到了逐步应用,来提高遥感影像的分类精度11

分类器的集成是用数学方法对分类器集合中的单分类器进行选择和组合,组合后的集成分类器能够获得比单一分类器更高的分类精度12。多分类器的集成主要有两种实现方法,一种是使用多种学习算法集成,得到异质类型的基分类器,再对输出的结果进行决策融合,即构建异质集成学习分类方法;另一种是使用同一种基学习算法产生同质的基学习器,将基学习器组合成精确分类的强学习器,强学习器比基学习器有更强的学习泛化能力13。目前遥感影像分类中应用最多的集成方法是Bagging集成算法和Boosting集成算法14。随机森林(Random Forest,RF)是最具代表性的Bagging集成学习算法15。Chan等16研究了随机森林在遥感影像分类中的应用,研究表明采用Bootstrap自助采样方法,会产生过拟合现象,它的随机选取性难以解释。Boosting是一种经典的集成学习方法,利用改变训练样本的权重分布来改变分类器,将弱学习器提升为强学习器。弱学习器能获得比随机选取更好的结果,而强学习器则可以非常接近最优学习器。Boosting集成方法中典型代表梯度提升树(Gradient Boosting Decision Tree,GBDT)、极限梯度提升树(eXtreme Gradient Boosting,XGBoost)、Light Gradient Boosting Machine(LightGBM)算法在土地覆被分类中应用较少。从现有研究17-18来看,该算法分类精度和效率较高,在遥感影像分类中有较大潜力。

Boosting集成算法要比Bagging集成算法准确率高,但Boosting方法对噪声十分敏感,如果训练样本含有噪声时,Boosting算法可能会失效,这是Boosting集成方法在土地覆被分类中存在的问题19-20。遥感影像由于受遥感平台、传感器、地形、外部环境等因素的影响,获取的影像通常含有噪声,基于样点提取的样本通常也有噪声。本实验为了解决Boosting集成方法在土地覆被中存在的问题,有效克服噪声的影响,减少分类结果中存在的“椒盐”现象和提高分类精度,提出了基于双树复小波分解的Boosting集成分类方法。使用SPOT6和Sentinel-2A两个不同传感器的遥感影像数据进行试验研究。为了突出双树复小波分解在Boosting集成方法分类中的重要作用,在同一种算法中进行对比实验。

2 研究区及数据

2.1 研究区概况

西宁市地处青藏高原过渡带,湟水流域中游河谷盆地。地理坐标为36°12′27″~37°30′09″ N,100°47′56″~101°56′49″ E,市区平均海拔2 295 m。研究区域为西宁市的一个典型小区域,如图1所示。该区域为河谷型区域,地形复杂,土地覆被类型包括城市、河流、农田、草地和林地等,具有一定代表性和典型性。

图1

图1   研究区位置

Fig.1   Location of the study area


2.2 数据源

SPOT6由法国空间中心于2012年9月22日成功发射并顺利进入695 km高的轨道。具有空间分辨率为6 m的多光谱蓝、绿、红、近红外波段和1.5 m 的全色波段,标准图像覆盖范围为60 km×60 km。实验采用蓝、绿、红、近红外4个光谱波段,利用ENVI5.3软件进行辐射定标,定标后采用FLAASH模型对影像进行大气校正。在ERDAS IMAGINE2016软件的IMAGINE Photogrammetry模块实现正射纠正。在ENVI 5.3中完成了研究区的镶嵌和裁剪。

Sentinel-2A由欧盟的哥白尼地球观测计划于2015年6月23日发射。Sentinel-2A携带一枚多光谱成像仪,有13个光谱波段,条带幅宽为290 km,重访周期10 d。研究中仅用了蓝、绿、红、近红外4个光谱波段,空间分辨率为10 m,免费来自欧洲航天局(https:∥scihub.copernicus.eu/dhus/#/home)。

3 研究方法

3.1 双树复小波分解

剑桥大学Kingsbury等21-22提出了双树复小波分解(The Dual-Tree Complex Wavelet Transform,DTCWT)算法。该算法是平行的两颗离散小波树,实现了实部和虚部运算。为了保证线性相位变换,要求采用一树为奇数长滤波器,另一树为偶数长的滤波器,并在不同层次间对称交替采用奇偶长滤波器。此后,他又提出了Q-shift双树复小波变换算法,基于正交变换的Q-shift(Quarter Sample shift)滤波器组对图像进行二维DTCWT分解,每层分解可以得到一幅低频子图和6幅代表不同方向±15±45±75方向的高频子图,其中低频子图像包含图像的主要信息特征,高频子图像反映图像的突变信息特征,而且分解后噪声绝大部分存在于第一层高频信息中23。滤波效果的比较采用等效视数作为指标,等效视数是噪声相对强度的指标,反应滤波器的斑点抑制能力。等效视数越大,图像上噪声越弱,解译性越好,其定义为所有像元均值与标准差的比值24

3.2 Boosting集成学习

Boosting是一种经典的集成学习方法,可将弱学习器提升为强学习器的算法25。一般来说,弱学习器能获得比随机选取更好的结果,而强学习器则可以非常接近最优学习器。但Boosting对噪声很敏感,容噪能力不强。如果一个示例没有被正确分类,那么它的权重就会被增大,当训练样本的标记含有噪声时,Boosting仍然会尽力拟合这些噪声,从而降低了分类器的分类能力。Boosting集成方法的一般过程如下:

输入:样本分布D

基学习算法S

学习轮数T

步骤:

1.D1=D. %初始化分布

2.Fort=1,,T

3. ht=S(Dt);%根据分布Dt训练弱分类器

4. εt=px~Dt(ht(x)f(x));%评估ht的错误率

5. Dt+1=Adjust_Distribution(Dt,εt).

6.end

输出:H(x)=Combine_Outputs({h1(x),,ht(x)})

GBDT、XGBoost和LightGBM是Boosting集成方法的经典具体实例化算法。具体过程如图2,GBDT是根据基分类器的学习不断调整样本的权重,建立残差模型,XGBoost是在GBDT的基础上对残差进行泰勒展开拟合,LightGBM在XGBoost基础上增加了GOSS和EFB方法。

图2

图2   3种Boosting集成方法过程

Fig.2   Three Boosting Ensemble Learning process


3.2.1 GBDT

GBDT是集成学习中Boosting算法26。该算法与其他的Boosting算法不同之处是在梯度下降的方向建立残差模型。GBDT是在随机森林算法的基础上进行了改进提升。GBDT在给定数据集D={(xi,yi):i=1,2,,n,xiRp,yi=R},其中,n为样本个数,每个样本有p个特征。给定损失函数l(y,F(x)),迭代次数为yi,其中,xi为输入训练集数据的特征向量,yi为输入训练集数据特征向量的真实标签。具体算法步骤如下:

(1)初始化模型的初始值F0(x)

F0(x)=argrmini=1nL(yi,γ)

其中,可以通过最小化残差的方式来求取γ参数。

(2)经过对模型赋予初始值,对模型进行M次迭代,设迭代的次数的变量为m(m=1,2,3,,M)。则可由下式计算第m次沿负梯度方向的近似残差:

rim=-[l(yi,F(xi))F(xi)]F(x)=F(m-1)(x)

其中:i=1,2,3,n

(3)经以上步骤,求得给定的n个数据样本的近似残差,则可以构造以训练集的输入向量为输入,以第m次沿梯度方向的近似残差为真实数据输出标签的新数据训练集{(xi,rim)}i=1n,将得到的新的数据集去训练经过第m次迭代生成新的分类器hm(x)

(4)计算hm(x)分类器的权重系数。

rm=argrmini=1nl(yi,Fm-1(xi)+γhm(xi))

其中:rm为当前样本残差下决策树分类器hm(x)的权重系数。

(5)更新训练模型,得出输出函数Fm(x),迭代m次后,即可输出最终的预估分类模型Fm(x)

Fm(x)=Fm-1(x)+γmhm(x)

训练完成后,求得各个决策树分类器在不同迭代次数下的权重系数,梯度提升分类决策树分类器Fm(x),即可对输入的数据进行计算,所得到的结果为不同决策树分类器在不同权重下的最优标签结果。

3.2.2 XGBoost

XGBoost是在GBDT算法的基础上发展而成的Boosting集成算法27。XGBoost改进了迭代优化的过程,在训练样本的梯度下降方向建立残差模型,并用泰勒展开式对模型损失函数残差作了近似,同时损失函数添加了正则化项(公式(5)),用于控制模型的复杂性和过拟合。XGBoost算法的计算效率优于GBDT算法,能多线程并行计算。

obj(t)i=1n[gift(xi)+12hift2(xi)]+Ω(ft)+ε

其中:gi=yi¯(t-1)l(yi,yi¯(t-1))hi=2yi¯(t-1)l(yi,yi¯(t-1))

3.2.3 LightGBM

LightGBM是基于决策树的分布式梯度提升算法28。GBDT和XGBoost因其本身的高准确率和可解释性在Boosting集成学习算法中有很大的优势。但是,GBDT和XGBoost算法对准确率和计算效率进行了平衡,这两种算法需要对每一个特征计算所有的样本点,计算很耗时。为了解决训练样本的训练耗时问题,LightGBM使用了梯度的单边采样GOSS(Gradient-based One-Side Sampling)和互斥特征捆绑EFB(Exclusive Feature Bundling)方法。GOSS方法是根据计算样本的信息增益,保留梯度大的样本点,去掉梯度小的样本,该方法比随机采样获得更准确的结果。EFB方法是对特征进行捆绑,进行特征的降维,减少特征数量。此外,LightGBM 模型中使用Histogram 直方图做差优化,减少对内存的消耗,提高计算效率。

4 结果分析与讨论

4.1 DTCWT结果

实验的DTCWT分解基于Matlab R2017b平台编程实现。通过对SPOT 6和Sentine-2A影像的每个波段进行一层DTCWT分解,过滤了每个波段的噪声信息。经计算SPOT 6影像的等效视数为2.94,经过DTCWT分解后SPOT 6影像的等效视数为3.26,说明分解后的SPOT 6影像噪声降低,解译性提高;Sentinel-2A影像的等效视数为1.59,经过DTCWT分解后Sentinel-2A影像的等效视数为1.61,说明DTCWT分解提高了影像质量。为了说明DTCWT分解后的效果,将SPOT 6和DTCWT分解后SPOT6影像在Arcgis10.2中重采样成10 m与Sentinel-2A对应的产品数据进行分析。在SPOT6、DTCWT-SPOT 6和Sentinel-2A影像上各选取了200个对应的像素点做线性回归分析,如图3所示。SPOT 6与Sentinel-2A的R2为0.87,DTCWT-SPOT 6与Sentinel-2A的R2为0.90,说明DTCWT分解后SPOT6的噪声降低,影像的质量提高。

图3

图3   SPOT6、DTCWT-SPOT 6和Sentinel-2A对比

Fig.3   Comparison of SPOT 6,DTCWT-SPOT 6 and Sentinel-2A


4.2 分类样本确定

根据全国遥感监测土地利用覆盖分类体系及城市用地分类与规划建设用地标准,基于野外实际调研和影像目视解译相结合,判定研究区有耕地、有林地、灌木林地、疏林地与其他林地、高覆盖草地、中覆盖草地、低覆盖草地、河流、水库坑塘、城乡工矿居住建设用地、未利用土地11类土地覆被类型。由于研究区各地物类型面积差异显著,分类样本选择对分类结果有一定的影像。朱秀芳等29对训练样本与分类方法间分类精度响应关系研究表明,对于不同分类方法,当样本个数足以刻画整个影像像元DN值的分布规律后,样本数量的增加对分类精度的提高影响不大。考虑到研究区域较小,为了使最终的样本数量和质量满足分类要求,减少其对研究结果的影响,本分类实验基于现场实地踏勘并结合同期的Google Earth高清影像采用目视解译方式进行样本的采样,共选取了2 750个样本,各土地覆被类型样本数见表1。80%的样本建立分类模型,20%样本用于精度评价。

表1   研究区样本数量

Table 1  Samples number statistics of study area

土地覆被类型样本数
耕地117
有林地67
灌木林地97
疏林地、其他林地283
高覆盖草地73
中覆盖草地278
低覆盖草地315
城乡工矿居住建设用地1023
河流220
水库坑塘124
未利用土地153

新窗口打开| 下载CSV


4.3 算法参数设置

分类实验计算采用PC配置Intel(R)Core(TM)i7-9750H@2.60 GHz处理器,16 GB内存64位Windows10操作系统,使用python3.6,IDE pycharm开发环境进行分析建模,建模过程中主要使用到的包和机器学习库有pandas、numpy、matplotlib、sklearn、xgboost和lightgbm。

利用GBDT、XGBoost和LightGBM算法建模分析时,参数的选择对算法的分类结果有着较大的影响,故需要对若干参数进行调优。对于GBDT算法,实验主要对学习率、迭代次数、最大树的深度以及最大叶子节点数这4个主要参数进行调优。对于XGBoost算法,实验主要对学习率、迭代次数、最大树的深度以及每个叶子节点样本权重这4个主要参数进行调优。对于LightGBM 算法,实验主要对学习率、迭代次数、叶子节点数以及最大直方图树这4个主要参数进行调优。为了合理地设置算法参数,使用网格搜索对上述算法参数进行自动寻优,具体步骤如下:①先确定学习率,把learning_rate设置成0.1,其它参数使用默认参数,使用GridSearchCV函数进行网格搜索确定合适的迭代次数;②找到合适的迭代次数后使用GridSearchCV函数对算法的其他参数进行网格搜索自动寻优;③减小(增大)学习率,同时增大(减小)迭代次数,找到合适的学习率是使得在误差最小时迭代次数最少。实验用训练样本训练模型,用验证样本评价模型,对遥感影像的分类精度采取混淆矩阵的方式评价。评价指标包括总体精度、Kappa系数、制图精度和用户精度。通过总体精度、Kappa系数、用户精度和制图精度综合评价,最终确定模型参数组合;最后以优选参数组合的GBDT、XGBoost和LightGBM算法对遥感影像进行分类并计算验证样本的分类精度。经反复训练模型,最后确定GBDT算法学习率为0.05,迭代次数为1 500次,最大树的深度6,最大叶子节点数50。XGBoost算法学习率0.06、迭代次数1 500、最大树的深度6以及每个叶子节点样本权重0.3。LightGBM算法学习率0.01,迭代次数1 500,最大树的深度6,最大叶子节点数50,L1正则的惩罚系数为0.1,L2正则的惩罚系数为0.2。

为了比较基于以上参数设置3种算法的运算效率和收敛性,运算了10次并记录平均运行时间和收敛曲线如图4图5所示。LightGBM算法运算时间为36.87 s,损失函数曲线先收敛,运算速度最快;XGboost算法运算时间为41.76 s,损失函数曲线其次收敛;GBDT算法运算时间为52.48 s,损失函数曲线最后收敛。说明LightGBM算法的计算性能优于XGboost和GBDT算法。

图4

图4   损失函数随迭代次数变化图

Fig.4   The loss function changes with number of iterations


图5

图5   损失函数随计算时间变化图

Fig.5   The loss function changes with computation time


4.4 分类结果分析

为了客观地评价各分类方法的结果,基于上面参数设置,利用选择的样本集的20%样本数,使用生产者精度、用户精度、总体精度及Kappa系数对分类结果进行评价。为了充分说明Boosting集成方法优势,增加了Bagging集成方法中最具代表性RF精度评价。以SPOT6和Sentinel-2A两个不同传感器的遥感影像数据为试验数据,分类精度见表2表3

表2   SPOT 6影像分类精度

Table 2  Classification accuracy of SPOT 6 image

土地覆被类型RFGBDTDTCWT-GBDTXGBoostDTCWT-XGBoostLightGBMDTCWT-LightGBM
用户精度/%制图精度/%用户精度/%制图精度/%用户精度/%制图精度/%用户精度/%制图精度/%用户精度/%制图精度/%用户精度/%制图精度/%用户精度/%制图精度/%
耕地80.6383.2188.7188.8488.8388.8688.8588.8788.8687.6988.8488.8888.8988.91
有林地91.5491.1687.5082.3593.6593.7493.7393.8593.8593.6993.8693.7693.8393.75
灌木林地90.2394.5691.6795.6591.6795.6591.6788.0091.6795.6595.8395.8395.8395.83
疏林地、其他林地92.3195.8991.7689.6694.1290.9194.1290.9192.9494.0598.8096.5598.8496.55
高覆盖草地87.2290.0181.7281.8181.3581.6681.3581.6381.5681.7681.8090.0081.8290.06
中覆盖草地91.3181.5291.3080.7795.6588.0091.3084.0095.6591.6791.3091.3095.6591.67
低覆盖草地81.1294.3379.5581.4084.0986.0581.8285.7186.3686.3681.8281.8286.3688.37

城乡工矿居住

建设用地

93.1387.6591.3296.6292.2497.1291.3296.6293.1596.2394.5296.2894.5297.64
河流94.7593.2398.2591.5997.5092.8697.5091.7697.5092.8695.0096.2097.5096.30
水库坑塘95.1195.0896.1395.0696.4296.1496.2598.5397.0698.1499.0899.1599.4399.28
未利用土地81.5680.1688.5081.5891.4382.0588.6781.5888.9381.5891.4382.0594.2982.50
总体精度/%89.2790.7392.5591.6492.7393.6394.73
Kappa0.870.880.910.890.910.920.93

新窗口打开| 下载CSV


表3   Sentinel-2A影像分类精度

Table 3  Classification accuracy of Sentinel-2A image

土地覆被类型RFGBDTDTCWT-GBDTXGBoostDTCWT-XGBoostLightGBMDTCWT-LightGBM
用户精度/%制图精度/%用户精度/%制图精度/%用户精度/%制图精度/%用户精度/%制图精度/%用户精度/%制图精度/%用户精度/%制图精度/%用户精度/%制图精度/%
耕地82.6381.2185.0683.2686.6383.6287.7586.3288.8486.9889.6489.0190.9686.68
有林地91.5490.1284.5080.2390.5192.3292.6392.7693.6992.4593.6893.8693.8492.69
灌木林地86.2388.2387.3688.2687.5489.3188.2389.3688.3689.3589.4589.2389.8590.21
疏林地、其他林地90.1293.6390.1588.4592.3591.9493.3291.8892.8893.4594.6395.5496.5695.34
高覆盖草地84.2690.2384.6385.6684.7684.5585.4683.5286.6584.7886.8183.6587.8286.45
中覆盖草地88.2380.5290.3682.7793.4285.6391.3886.2392.6691.5693.3691.3995.3592.36
低覆盖草地83.1284.3385.4281.5686.0685.4386.8284.6787.2686.4587.8284.8288.3685.42
城乡工矿居住90.2985.3691.6592.3491.7891.2391.9391.6292.1693.4593.3594.2694.4295.32
建设用地
河流94.7595.2695.3196.3696.5696.2396.7696.6796.5396.4895.6996.2696.5995.36
水库坑塘96.1193.1697.4693.2397.3295.1397.1597.2398.3695.0698.3399.1499.2198.36
未利用土地80.1280.0783.5381.2684.2182.1484.6883.4787.9382.6388.4585.3689.1887.66
总体精度/%87.8589.1991.2390.5892.4691.7293.25
Kappa0.860.870.900.880.890.900.91

新窗口打开| 下载CSV


表2中可以看出3种Boosting集成算法在SPOT6上的分类总体精度高于90%,均高于RF的分类总体精度,3种算法对地物都有较强的提取能力。相比Boosting集成算法,RF在城乡工矿居住建设用地上有一定优势,用户精度为93.13%;在耕地提取上精度较低,用户精度为80.63%。Boosting集成算法在耕地、疏林地和其他林地有较高精度,LightGBM在疏林地和其他林地上用户精度为98.80%。从分类总体精度分析,经过DTCWT分解的LightGBM分类精度最高,达到94.73%,Kappa系数为0.93,比没有经过DTCWT分解的总体精度提高了1.1%,Kappa系数提高了0.01。经过DTCWT分解的3种Boosting集成算法分类精度都高于没有经过分解的分类精度,说明DTCWT分解可以有效去除影像的噪声,提高分类的精度。LightGBM分类精度比XGBoost分类精度提高1.99%,Kappa系数提高了0.03,比GBDT分类精度提高了2.9%,Kappa系数提高了0.04。

图6为SPOT 6分类的实验对比图,图7为SPOT 6分类结果的局部图。从图中可以看出基于DTCWT分解的LightGBM分类的效果最好,分类结果杂点少,“椒盐”现象最弱,区域一致性也更强。原因是采样时使用的不是所有样本点来计算梯度,而是对样本点进行采样来计算梯度,根据计算样本的信息增益,梯度大的样本点对信息增益有更大的贡献,所以在下采样时,保留了梯度大的样本,随机去掉了梯度小的样本。遥感影像在地物轮廓边缘处的梯度变化大,在同一地物内部梯度变化小,所以分类区域一致性好。LightGBM分类区域一致性较好,中间存在少量的杂点,对地物轮廓的识别相对准确,更能体现地物的细节特征。基于DTCWT分解的XGBoost分类对地物信息的识别较准确,对周边其他复杂地物的识别也准确,同类地物的“椒盐”现象较少。XGBoost分类地物类型轮廓清晰,未利用土地和城乡工矿居住建设用地有少量的混分。基于DTCWT分解的GBDT分类,地物清晰,存在少量的“椒盐”噪声,未利用土地和城乡工矿居住建设用地有少量的混分。GBDT的分类结果,中间存在“椒盐”噪声,有杂点,地物有少量的混分,未利用土地和城乡工矿居住建设用地有少量的混分,低覆盖草地和中覆盖草地有少量混分。从局部的分类结果来看,LightGBM对地物信息提取能力较强。光谱特征较为单一的苗圃一般较难提取,DTCWT-LightGBM算法提取的苗圃完整性较好,区域一致性更强,中间碎斑很少,说明DTCWT-LightGBM算法能准确有效地提取地物信息。

图6

图6   SPOT 6试验区影像分类结果

Fig.6   Results of image classification in the experimental area for SPOT 6


图7

图7   SPOT 6影像的局部分类结果

Fig.7   The partial magnification classification results of study area for SPOT 6 image


表3中可以看出3种Boosting集成算法在Sentinel-2A上分类总体精度均高于RF分类的总体精度,3种算法对地物都有较强的提取能力,但都低于SPOT6的总体精度,因为Sentinel-2A空间分辨率低于SPOT6空间分辨率。Boosting集成算法在耕地、水库坑塘有较高的分类精度。从分类总体精度分析,经过DTCWT分解的LightGBM分类精度最高,达到93.25%,Kappa系数为0.91,比没有经过DTCWT分解的总体精度提高了1.53%,Kappa系数提高了0.01。经过DTCWT分解的3种Boosting集成算法分类总体精度都高于没有经过分解的分类总体精度,说明DTCWT分解可以有效去除影像的噪声,提高分类的精度。LightGBM分类总体精度比XGBoost分类总体精度提高1.14%,Kappa系数提高了0.02,比GBDT分类总体精度提高了2.53%,Kappa系数提高了0.03。

图8为Sentinel-2A的分类实验对比图,图9为Sentinel-2A分类结果的局部图。从图中可以看出Sentinel-2A分类总体效果没有SPOT 6的分类效果好,在灌木林地上的分类结果较差,因为灌木比较矮小,10 m的空间分辨率可能分辨不清楚;对耕地的提取较好,基本能将耕地完全提取出来。经过DTCWT分解的3种Boosting算法比没有分解的直接分类相比,“椒盐”现象明显减弱,图的碎斑减少;经过DTCWT分解的LightGBM分类结果最好,能准确的将土地覆被信息提取出来。LightGBM分类区域一致性较好,中间存在少量的杂点,对地物轮廓的识别相对准确,更能体现地物的细节特征。XGBoost和GBDT算法在灌木林地和未利用土地上分类精度较低,将少部分未利用土地错分为城乡工矿居住建设用地。从局部的分类结果来看,DTCWT-LightGBM对地物信息提取能力很强,区域一致性更好,中间碎斑很少,更能体现地物的细节。3种Boosting集成算法在苗圃上的提取效果没有在SPOT6上效果好,可能是10 m分辨率对于提取苗圃有些低。

图8

图8   Sentinel-2A试验区影像分类结果

Fig.8   Results of image classification in the experimental area for Sentinel-2A


图9

图9   Sentinel-2A影像的局部分类结果

Fig.9   The partial magnification classification results of study area for Sentinel-2A image


4.5 算法适用性评价

基于双树复小波分解的Boosting集成学习分类方法对SPOT 6和Sentinel-2A两种不同传感器的遥感影像数据进行分类研究,算法的分类总体精度如图10所示。从分类精度方面评价,算法在SPOT 6影像上分类总体精度均高于90%,在Sentinel-2A影像上分类总体精度均高于87%,3种Boosting集成方法在两种数据上都有较高的分类精度。在两种数据上的分类精度变化趋势一致,DTCWT-LightGBM分类精度都最高,RF分类精度都最低,说明Boosting集成分类方法优于Bagging集成方法中的RF。分解后的分类精度和效果均优于直接分类结果,说明基于双树复小波分解的Boosting集成学习分类方法在土地覆被分类中有显著优势。从目前Boosting集成方法在遥感影像分类中应用来看,Zhang等30用XGBoost算法绘制准格尔盆地的植被分类图,并且对比了XGBoost和RF、SVM等算法,研究表明XGBoost算法优于其他算法,XGBoost算法植被类型图的准确率为0.907,和本实验的分类精度基本接近。Cao等31应用多源遥感数据估算冬小麦的产量,LightGBM算法预测的准确率更高,和本文结论一致,说明Boosting集成方法在分类中优于其他方法。本实验对SPOT 6和Sentinel-2A两种不同传感器的遥感影像数据进行分类研究,得出了相同的结论,说明该算法具有较好的适用性。

图10

图10   分类总体精度评价图

Fig.10   Evaluation of Classification overall accuracy


4.6 讨论

虽然Boosting集成方法中的GBDT、XGBoost和LightGBM算法分类精度高于Bagging集成方法中的RF算法分类精度。但是,Boosting集成方法对噪声十分敏感,这是Boosting方法的不足。遥感影像由于受多种因素的影响,影像本身含有噪声,为了解决Boosting集成方法在土地覆被分类中存在的问题,尝试提出了基于双树复小波分解的Boosting集成方法在土地覆被分类中的应用。经过在SPOT 6和Sentinel-2A影像上分类研究,该方法具有较高的分类精度和效率。

本实验所提方法的优势主要体现在两方面:一是两种方法的结合和互补,解决了Boosting集成方法在土地覆被分类中存在的问题,降低了图像噪声,提高了分类效率和分类精度。基于双树复小波分解的GBDT、XGBoost和LightGBM 3种Boosting集成方法分类结果和精度均优于未经过双树复小波分解的3种算法的直接分类结果。二是基于像素的分类结果中一般会产生“椒盐”现象,经过对影像的双树复小波分解,得到的分类结果的“椒盐”现象减弱,这也是该方法的优势。

5 结 语

本实验基于双树复小波分解的Boosting集成方法对SPOT6和Sentinel-2A两种影像的土地覆被进行分类研究,得出以下结论:① 3种Boosting集成算法总体分类精度均高于RF分类总体精度,对复杂地物有着较强的区分和提取能力,多分类器的优势互补集成分类效果优于单分类器分类效果;②经过双树复小波分解后的Boosting集成学习分类,降低了图像的噪音,减少了分类结果中的“椒盐”现象,区域一致性更强,提高了分类精度;③ 3个Boosting集成算法当中,LightGBM 占用内存更低,运算速率更快,更快的收敛速度,结果更准确,其模型泛化能力和稳定性相比更好,分类结果中的地物轮廓清晰,区域一致性更好。基于双树复小波分解后的LightGBM分类结果准确率更高,在遥感影像分类中具有更大的潜力和优势;④两种方法的优势互补,解决Boosting集成方法在土地覆被分类中存在的问题,有效克服噪声的影响,减少分类结果中存在的“椒盐”现象和提高分类精度。

通过研究双树复小波分解的Boosting集成方法在分类中的应用,发现该方法较传统方法分类效率和精度有一定提高,为遥感影像分类提供一种新思路。为了充分高效提取遥感影像中的空间信息,需要在不同或多个空间尺度上提取多尺度的特征,降低影像的噪声及采用高性能的分类器和建模方法将是今后进一步研究的关键。

参考文献

Dai QinlingLuo BinZheng Chenet al.

Regional multiscale Markov random field for remote sensing image classification

[J]. Journal of Remote Sensing, 2020243):245-253.

[本文引用: 1]

代沁伶罗斌郑晨.

区域多尺度马尔可夫随机场的遥感影像分类

[J].遥感学报,2020243):245-253.

[本文引用: 1]

Ding YapingChen Zhongxin.

Dry land crop classification using minimum distance method based on Radarsat-2

[J]. Chinses Journal of Agricultural Resources and Regional Planing,2014356):79-84.

[本文引用: 1]

丁娅萍陈仲新.

基于最小距离法的Radarsat-2遥感数据旱地作物识别

[J].中国农业资源与区划, 2014356):79-84.

[本文引用: 1]

Liu Xiaoli.

Object oriented remote sensing image classification based on segmenting and merging

[J].Science of Surveying and Mapping,2014398):144-147.

[本文引用: 1]

刘晓莉.

多种信息分割合并的面向对象遥感影像分类

[J].测绘科学,2014398):144-147.

[本文引用: 1]

Jia Yonghong.

Application of artificial neural network to classification of multi-source remote sensing imagery

[J]. Bulletin of Surveying and Mapping,20007):7-8.

[本文引用: 1]

贾永红.

人工神经网络在多源遥感影像分类中的应用

[J].测绘通报,20007):7-8.

[本文引用: 1]

Li XiaohuiWang HongLi Xiaobinget al.

Study on crops remote-sensing classification based on multi-temporal Landsat-8 OLI images

[J]. Remote Sensing Technology and Application, 2019342):389-397.

[本文引用: 1]

李晓慧王宏李晓兵.

基于多时相Landsat-8 OLI影像的农作物遥感分类研究

[J].遥感技术与应用,2019342):389-397.

[本文引用: 1]

Gu XiaotianGao XiaohongMa Huijuanet al.

Comparision of machine learning methods for land use/land cover classification in the complicated terrain regions

[J]. Remote Sensing Technology and Application,2019341):57-67.

[本文引用: 1]

谷晓天高小红马慧娟.

复杂地形区土地利用/土地覆被分类机器学习方法比较研究

[J].遥感技术与应用,2019341):57-67.

[本文引用: 1]

Li JBioucas-dias J MPlaza A.

Semi-supervised hyperspectral image segmentation using multinomial Logistic regression with active learning

[J].IEEE Transactions on Geoscience and Remote Sensing,20104811): 4085-4098.

[本文引用: 1]

Pasolli EMelgani FTuia Det al.

SVM active learning approach for image classification using spatial information

[J].IEEE Transactions on Geoscience and Remote Sensing,2014524): 2217-2233.

[本文引用: 1]

Yang JinwenLai Wenkui.

The application status and Ddvelopment trend of deep learing algorithm in remote sensing image classification and recognition

[J]. Geomatics & Spatial Information Technology,20204):114-117.

[本文引用: 1]

杨瑾文赖文奎.

深度学习算法在遥感影像分类识别中的应用现状及其发展趋势

[J].测绘与空间地理信息,20204):114-117.

[本文引用: 1]

Li XianjiangChen YouqiZou Jinqiuet al.

Application of convolutional neural networks in high-resolution image classification

[J].Journal of Agricultural Big Data, 201911):67-77.

[本文引用: 1]

李贤江陈佑启邹金秋.

卷积神经网络在高分辨率影像分类中的应用

[J].农业大数据学报,201911):67-77.

[本文引用: 1]

Du PeijunSamat Alim.

Multiple instance ensemble learing method for high-resolution remote sensing image classification

[J].Journal of Remote Sensing, 2013171):77-97.

[本文引用: 1]

杜培军阿里木·赛买提.

高分辨率遥感影像分类的多示例集成学习

[J].遥感学报,2013171):77-97.

[本文引用: 1]

Zhang YanLin YingLv Danjv.

Application of ensemble learning in remote sensing image classification

[J].Computer & Digital Engineering, 2013415):697-699.

[本文引用: 1]

张雁林英吕丹桔.

集成学习在遥感分类中的应用

[J].计算机与数字工程,2013415):697-699.

[本文引用: 1]

Bao RXia JMura M Det al.

Combining morphological attribute profiles via an ensemble method for hyperspectral image classification

[J]. IEEE Geoscience and Remote Sensing Letters,2016133):359-363.

[本文引用: 1]

Peng ZhenglinMao XianchengLiu Wenyiet al.

Method for classification of remote sening images based on multiple classifiers combination

[J].Remote Sensing for Land and Resources, 2011232):19-25.

[本文引用: 1]

彭正林毛先成刘文毅.

基于多分类器组合的遥感影像分类方法研究

[J].国土资源遥感,2011232):19-25.

[本文引用: 1]

Gislason P OBenediktsson J ASveinsson J R.

Random forests for land cover classification

[J]. Pattern Recognition Letters,2006274):294-300.

[本文引用: 1]

Chan J C WPaelinckx D.

Evaluation of random forest and Adaboost tree-based ensemble classification and spectral band selection for ecotope mapping using airborne hyper⁃spectral imagery

[J]. Remote Sensing of Environment,20081126):2999-3011. DOI:10.1016/j.rse.2008.02.011 .

[本文引用: 1]

Yang LMansaray LHuang Jet al.

Optimal segmentation scale parameter, feature subset and classification algorithm for geographic object-based crop recognition using multisource satellite imagery

[J]. Remote Sensing, 2019115):514-537.DOI.org/10.3390/rs11050514.

[本文引用: 1]

Abdullah A Y MMasrur AAdnan M S Get al.

Spatio-temporal patterns of land use/land cover change in the heterogeneous coastal region of bangladesh between 1990 and 2017

[J].Remote Sensing, 2019117):790-816. DOI:10.3390/rs11070790 .

[本文引用: 1]

Wen LHughes M.

Coastal wetland mapping using ensemble learning algorithms: A comparative study of bagging, boosting and stacking techniques

[J]. Remote Sensing,20201210):1683-1701. DOI:10.3390/rs12101683 .

[本文引用: 1]

Yu YaoSu HongjunYao Wenjing.

Boosting ensemble learning for hyperspectral image classification using tangent collaborative representation

[J].Remote Sensing Technology and Application,2020353):634-644.

[本文引用: 1]

虞瑶苏红军姚文静.

基于Boosting 的高光谱遥感切空间协同表示集成学习方法

[J]遥感技术与应用,2020353):634-644.

[本文引用: 1]

Kingsbury N.

Complex wavelets for shift invariant analysis and filtering of signals

[J].Journal of Applied and Computational Harmanic Analysis,2001103):234-253.

[本文引用: 1]

Kingsbury N.

Image processing with complex waveles

[J].Phil Trans Roy Soc.19993579):2543-2560.

[本文引用: 1]

Fu BoWang Xianghai.

Image denoise algorithm based on inter correlation of wavelet coefficients at finer scales

[J].Computer Science, 200810):246-249.

[本文引用: 1]

傅博王相海.

一种基于细尺度间小波系数相关性的图像去噪方法

[J].计算机科学,200810):246-249.

[本文引用: 1]

Wu ShihuYu XuchuXu Min.

Speckle noise reduction of SAR image based on DTCWT

[J].Science of Surveying and Mapping, 2010355):60-61.

[本文引用: 1]

吴石虎余旭初许敏.

基于双树复数小波的SAR图像去噪算法

[J].测绘科学,2010355):60-61.

[本文引用: 1]

Freund YSchapire R E.

A decision-theoretic generalization of on-line learning and an application to boosting

[J].Journal of Computer and System Sciences,1997551):119-139.

[本文引用: 1]

Friedman J H.

Greedy function approximation:A gradient boosting machine

[J].Annals of Statistics,2001295):1189-1232.

[本文引用: 1]

Chen TGuestrin C.

XGBoost: a scalable tree boosting system

[C]∥ ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM2016785-794

[本文引用: 1]

Ke GMeng QFinley Tet al.

LightGBM: A highly efficient gradient boosting decision tree

[C]∥ Advances in Neural Information Processing Systems. 20173146-3154.

[本文引用: 1]

Zhu XiufangPan YaozhongZhang Jinshuiet al.

The effects training samples on the wheat planting area measure accuracy in TM scale(I):The accuracy response of cifferent classifiers to training samples

[J]. Journal of Remote Sensing, 2007116):826-837.

[本文引用: 1]

朱秀芳潘耀忠张锦水.

训练样本对TM尺度小麦种植面积测量精度影响研究(Ⅰ)—训练样本与分类方法间分类精度响应关系研究

[J].遥感学报,2007116):826-837.

[本文引用: 1]

Zhang HEziz AXiao Jet al.

High-resolution vegetation mapping using extreme gradient boosting based on extensive features

[J]. Remote Sensing, 20191112): 1505-1527. DOI:10.3390/rs11121505 .

[本文引用: 1]

Cao JZhang ZTao Fet al.

Identifying the contributions of multi-source data for winter wheat yield prediction in China

[J]. Remote Sensing 2020125):750-772. DOI:org/10.3390/rs12050750 .

[本文引用: 1]

/