时序数据集构建质量对土地覆盖分类精度的影响研究
1.
2.
Influence of Time Series Data Quality on Land Cover Classification Accuracy
1.
2.
通讯作者:
收稿日期: 2019-04-15 修回日期: 2020-05-15 网络出版日期: 2020-07-03
基金资助: |
|
Received: 2019-04-15 Revised: 2020-05-15 Online: 2020-07-03
作者简介 About authors
董超(1984-),男,山东昌邑人,讲师,主要从事农业信息技术研究E⁃mail:
关键词:
Keywords:
本文引用格式
董超, 赵庚星.
Dong Chao, Zhao Gengxing.
1 引 言
尽管如MODIS数据产品已经采用质量驱动、视角约束和最大值合成等方法[13,14,15]能在一定程度上提高数据质量,但时间序列数据构建时由于卫星传感器自身性能、云层和大气条件等因素影响[16],仍不可避免存在噪声问题,影响进一步的应用。为有效解决这些问题,有必要进一步对数据质量进行优化。Onojeghuo等[17]将MODIS时序数据与Landsat数据利用时空自适应反射率融合模型融合,生成更精细时空分辨率数据。王正兴等[18]采用“错位8 d”合成将MODIS时序分辨率提高到8 d。Olivier等[19]利用时间序列时间滑动窗口内插提高覆盖分类精度。另外,还有基于非对称的高斯函数拟合法,Savitzky-Golay滤波等方法移除噪声影响。综上,时间序列数据集质量主要受到时空分辨率高低[20],数据像元质量[21],数据重构算法 [22]的影响。而时间数据集质量决定了分类结果的有效性。虽然土地覆被分类精度还可以通过优化分类方法[23],优选分类组合特征[24]的方式提高,但通过数据预处理提升时序数据质量是提高分类精度的基本保障。
因此,使用Aqua和Terra双星数据构建MODIS-NDVI时序数据集,利用质量控制数据线性插值和HANTS谐波平滑方法(Harmonic Analysis of Time Series,HANTS)构建不同质量时序数据集方案,以山东省为研究区,采用随机森林方法,对土地覆被进行分类和精度评定,基于分类结果精度分析时序数据集构建质量对土地覆盖分类精度的影响。本研究旨在揭示时序数据集构建质量与分类精度关系,为利用遥感技术快速、准确绘制大尺度地面覆盖地图提供技术支持和科学指导。
2 数据与方法
2.1 研究区概况
山东省位于中国东部沿海、黄河下游,34°22.9′~38°24.01′ N、114°47.5′~122°42.3′ E之间。全省土地总面积15.79万km2,省内土地开发利用程度较高,主要包括耕地、林地和建设用地等利用形式。其中耕地7.61万km2,占土地总面积的48.18%;园地0.71万km2,占土地总面积的4.55%;林草地1.92万km2,占土地总面积的12.17%;建设用地2.40万km2,占土地总面积的10.21%;水面面积1.61万km2,占全省面积10.21%[25]。
2.2 数据来源
研究主要采用了Terra星的MODIS的MOD13Q1(h27v05)产品和Aqua星的MYD13Q1(h27v05)产品。数据从LAADS DAAC(Level 1 and Atmosphere Archive and Distribution System)上获取(
2.3 数据预处理
MODIS数据产品(MOD13Q1、MYD13Q1)为正弦投影,数据格式为HDF-EOS。主流遥感软件不支持正弦投影,使用NASA提供的MODIS重投影工具(MODIS Reprojection Tool,MRT)将投影转换为UTM投影,提取其中的NDVI和质量数据并转为Tiff格式。将数据按研究区边界裁剪后组合成MODIS-NDVI时间序列数据集。
2.4 研究方法
通过构建不同质量方案的MODIS-NDVI时序数据集,采用随机森林分类的方法,获取2016年山东省土地覆盖分类图,利用精度评价评估时序数据质量对分类精度的影响,研究步骤如下:
(1)研究将时序数据集质量因素分为时间分辨率影响,像元质量影响和数据重构影响。时间分辨率采用单星数据和双星数据分别构建时间序列的方法对比分析影响;像元质量采用利用像元质量控制数据时间窗口线性内插的方法;数据重构采用HANTS平滑的方法。为精确评估时序数据集质量对分类精度的影响,设计时序数据集构建方案如表1所示。数据集中Y和P对比HANTS平滑处理影响,P和PS对比平滑插值的影响,23和46对比时间分辨率增加的影响。
表1 不同质量时序数据集对照表
Table 1
数据集名称 | Terra数据 | Aqua数据 | 线性插值 | HANTS |
---|---|---|---|---|
Y23 | 是 | 否 | 否 | 否 |
Y46 | 是 | 是 | 否 | 否 |
S23 | 是 | 否 | 是 | 否 |
S46 | 是 | 是 | 是 | 否 |
P23 | 是 | 否 | 否 | 是 |
P46 | 是 | 是 | 否 | 是 |
PS23 | 是 | 否 | 是 | 是 |
PS46 | 是 | 是 | 是 | 是 |
(2)时间序列数据集合成。由于Aqua和Terra双星数据采用“半合成期错位”方法,每个合成时间节点相差8 d,将数据按时间从2016年第001天至第361天排序合成时间序列数据集。单星合成数据一年包含23个时间波段,双星数据一年包含46个时间波段。
(3)线性插值。MODIS数据提供了产品质量控制数据(Quality control,QC),质量控制数据包括像元可靠性(pixel reliability)和植被指数质量(VI quality)两种标记。前者使用二进制数标记了像元数据的质量,如高质量数据(值标记为0)、边际数据(值标记为1)和有云、雪数据。为尽可能消除数据像元因云、雪等因素带来的影响,对其进行线性插值处理。基本原理为同一空间位置像元,时间序列位置越靠近其值越相近。插值步骤为:按时间顺序依次检查像元可靠性的标记,记录标记为云、雪标记的像元位置,找出MODIS-NDVI时间序列对应位置,对其时序上临近的标记为高质量的数据节点进行线性插值替换记录位置的像元值。
(4)HANTS平滑。为进一步移除噪声和保持数据的一致性,采用HANTS方法对MODIS-NDVI时序数据集进行平滑处理,提高时序数据的质量。HANTS方法是一种物候分析方法,该方法将数据经傅里叶变换与最小二乘法拟合进行插值,可以获得新的更为光滑时间序列。
(5)训练集和验证集的构建。包括样点的创建和样点标记。考虑山东省内东西差异较大(经差8°)及生长环境的区域差异,将研究区划分为50 000 m×50 000 m的格网,统计网格内土地利用现状类别,按类别复杂度共生成586个训练样点和423个验证样点(图2)。
图1
图2
为保证训练样点和验证样点的精度,样点标记时基于以下3个数据共同判定其类别:①研究区土地利用现状数据;②Google Earth中的高清卫星影像;③MODIS-NDVI时序数据曲线。首先统计研究区土地利用现状图中的地类类别,基于MODIS-NDVI时序数据集分类特征和空间分辨率建立新的地类类别,类别对应关系见表2。根据土地利用现状类别和地类对照表,确定数据集初始类别。根据MODIS时序曲线特征初步判断验证点的类别,结合GoogleEarth高分辨率卫星影像进一步确定验证数据类别,构建训练样点数据集。
表2 地类分类对照表
Table2
土地利用地类 | 遥感分类地类 | 土地利用地类 | 遥感分类地类 |
---|---|---|---|
水田 | 耕地 (一季作物、 两季作物) | 坑塘水面 | 水域 |
水浇地 | 养殖水面 | ||
旱地 | 河流水面 | ||
果园 | 林草地 | 湖泊水面 | |
有林地 | 水库水面 | ||
天然草地 | 城市 | 建设用地 | |
荒草地 | 农村居民点 |
(6)覆盖分类。随机森林分类方法是基于分类回归树(Classification and Regression Trees,CART)的一种集成学习方法,属于机器学习算法的一种,基于多次抽样算法获得多个随机样本,并通过这些样本分别生成决策树,构成随机森林。最终类标签是由单个决策树分配的类标签最多数投票决定,对于训练数据的过拟合和离群值具有较好的抗干扰能力。本研究使用ENMAP Box v2.2 提供的随机森林模块对研究区时序数据进行分类。
(7)精度评价与分析。计算设计质量方案时序数据集分类结果与验证数据集的混淆矩阵。根据分类精度评价结果,统计错分类别时序曲线,分析构建质量与分类精度之间的影响。本研究使用ENMAP Box 2.2软件进行随机森林的分类和结果的评价工作,使用ArcGIS 10.1完成研究结果的制图和分析。
3 研究结果
3.1 精度验证
图3为不同质量数据集的分类精度,图中显示PS46总体精度为90.75%,Kappa系数为88.16%,在所有数据集中分类精度最高。Y23总体精度为84.32%,Kappa系数为79.86%,是分类精度最低的数据集。随着时间分辨率增加,线性插值处理和HANTS平滑处理,数据集质量增加,分类结果精度也相应提高。
图3
图3显示PS、S和P处理的数据集分类精度高于Y,表明线性插值和HANTS平滑处理能提高数据集的质量,提高分类精度。P46精度比Y46高了2.83%,PS46精度比P46高了3.09%,线性插值处理对于HANTS平滑处理提升还是较为明显的。
图3对比分析可见,高时间分辨率的数据集分类精度高于低时间分辨率数据集,相差最小的是Y23和Y46,为0.51%;相差最大的是PS23和PS46,为4.63%。当数据不进行平滑处理时,单纯提高时间分辨率并不能明显提高分类精度;反之, HANTS平滑处理需要基于较高的时间分辨率数据才有较好的效果,而时间分辨率提高对线性插值效果并不明显。另外低时间分辨率数据集的分类精度增加低于高时间分辨率数据集分类精度增加,且PS23的分类精度低于PS46,可见当时间分辨率较低时,其他提高数据质量的方法效果不明显。
表3统计了类别的用户精度和制图精度。表中显示分类用户精度较高的地类为水域、两季作物、建设用地,制图精度较高的地类是建设用地、林草地、两季作物。一季作物在所有地类中分类精度最低。随着数据集质量的增加所有地类的分类精度都有一定程度的提高,但水域地类精度没有增加,反之出现降低的情况。对比不同时间分辨率数据集,一季作物、水域分类精度受影响较大,两季作物、林草地分类精度影响较小。线性插值精度影响较大的为林草地和水域,平滑处理精度影响较大的是水域和一季作物。
表3 不同处理时序数据集分类精度
Table3
两季作物 | 林草地 | 水域 | 建设用地 | 一季作物 | ||
---|---|---|---|---|---|---|
Y23 | 用户精度 | 93.44 | 76.74 | 100 | 83.82 | 68.12 |
制图精度 | 88.37 | 89.19 | 78.57 | 89.06 | 71.21 | |
Y46 | 用户精度 | 92.62 | 79.01 | 100 | 85.29 | 68.92 |
制图精度 | 87.60 | 86.49 | 78.57 | 90.63 | 77.27 | |
S23 | 用户精度 | 96.09 | 78.83 | 97.78 | 93.44 | 80.88 |
制图精度 | 82.17 | 89.19 | 78.57 | 89.06 | 83.33 | |
S46 | 用户精度 | 99.22 | 79.73 | 97.73 | 93.33 | 78.57 |
制图精度 | 82.05 | 89.87 | 76.79 | 87.05 | 83.33 | |
P23 | 用户精度 | 94.96 | 80.49 | 97.73 | 85.29 | 67.11 |
制图精度 | 87.60 | 89.19 | 76.79 | 90.63 | 77.27 | |
P46 | 用户精度 | 98.18 | 81.18 | 94.12 | 83.56 | 78.57 |
制图精度 | 83.72 | 93.24 | 85.71 | 95.31 | 83.33 | |
PS23 | 用户精度 | 93.55 | 80.72 | 100 | 86.36 | 70.83 |
制图精度 | 89.92 | 90.54 | 78.57 | 89.06 | 77.27 | |
PS46 | 用户精度 | 95.80 | 86.84 | 96.43 | 92.31 | 80.82 |
制图精度 | 88.37 | 89.19 | 96.43 | 93.75 | 89.39 | |
平均 | 用户精度 | 94.76 | 80.83 | 98.05 | 86.11 | 72.40 |
制图精度 | 87.60 | 89.64 | 82.44 | 91.41 | 79.29 |
3.2 精度影响分析
3.2.1 时间分辨率增加对精度影响分析
图4
图5
3.2.2 线性插值对精度影响
图6
3.2.3 HANTS平滑对精度影响
图7
表4 曲线平滑统计表
Table4
两季作物 | 一季作物 | 林草地 | 水域 | 建设用地 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Y46 | P46 | Y46 | P46 | Y46 | P46 | Y46 | P46 | Y46 | P46 | |||||
均值 | 5 023.28 | 5 022.78 | 3 684.12 | 3 683.63 | 4 841.32 | 4 840.82 | 51.91 | 51.99 | 2 011.26 | 2 010.76 | ||||
最小值 | 2 666.99 | 2 841.89 | 1 799.57 | 1 848.47 | 2 498.69 | 2 800.26 | -1 841.73 | -1 300.21 | 1 011.11 | 1 140.41 | ||||
最大值 | 8 143.52 | 8 579.48 | 7 881.15 | 7 726.97 | 7 625.72 | 7 308.47 | 2 386.40 | 1 753.77 | 3 059.35 | 2 891.24 | ||||
标准差 | 1 712.04 | 1 638.95 | 1 840.82 | 1 824.66 | 1 682.77 | 1 657.61 | 1 010.20 | 957.94 | 622.89 | 609.75 |
表5 不同处理时序数据集分类时间
Table5
Y23 | Y46 | S23 | S46 | P23 | P46 | PS23 | PS46 | |
---|---|---|---|---|---|---|---|---|
训练时间 | 5 s | 6 s | 4 s | 5 s | 4 s | 5 s | 4 s | 6 s |
分类时间 | 36 s | 37 s | 36 s | 37 s | 34 s | 35 s | 33 s | 34 s |
3.3 分类结果
图8为平滑后MODIS时序数据分类结果图。从图中可见,山东中部、东部有大面积林草地分布;两季作物主要分布于鲁西北平原、鲁中南山前北平原、鲁中南山前平原,其余地区零星分布;一季作物主要分布于鲁中山区和胶东丘陵。
图8
4 结 论
本文构建了6个质量方案的MODIS-NDVI时序数据集,通过随机森林分类的方法获取了山东省土地覆盖信息,并对分类结果进行了精度评价,探讨了MODIS-NDVI时序数据集质量与分类精度的关系,得到结论如下:
(1)MODIS-NDVI时序数据能够较好的反映地表覆盖的物候特征,采用随机森林分类的方法可以以较高的精度获取陆地覆盖信息。通过增加时序数据集时间分辨率、线性插值和HANTS平滑的方法,可以提高MODIS-NDVI时序数据集质量,分类总体精度从84.32%提高至90.75%,Kappa系数从79.86%提高至88.16%。
(2)提高MODIS-NDVI时序数据的时间分辨率可以更加精准的刻画地表覆盖的物候特征。只增加数据集时间分辨率,分类总体精度提高了0.51%,但在平滑处理后,高低分辨率精度相差4.63%,可见单纯增加时间分辨率并不能明显提升分类进度,时间分辨率增加可以为后续处理提供更多有效数据,使得后续处理对数据质量提升效果更好。
(3)通过引入MODIS的质量控制数据对MODIS-NDVI时序数据进行线性插值能有效降低云、雨等因素带来的异常值的影响,降低时序曲线中的突变程度,提升平滑数据的质量。
(4)HANTS方法可以对时序数据平滑移除异常值,突出类别特征,降低分类复杂度,减少分类时间。
参考文献
Changes in the Land Surface Energy Budget in Eastern China over the Past Three Decades: Contributions of Land-cover Change and Climate Change
[J].
Long-term Continuity in Land Surface Phenology Measurements: A Comparative Assessment of the MODIS Land Cover Dynamics and VIIRS Land Surface Phenology Products
[J].
Extreme Land-cover and Biodiversity Change as an Outcome of Land Abandonment on a Mediterranean Island (Eastern Adriatic)
[J].
Pesticides and Land Cover Heterogeneity Affect Functional Group and Taxonomic Diversity of Arthropods in Rice Agroecosystems
[J].
Land-use Portfolios and the Management of Private Landholdings in South-central Indiana
[J].
Discrepant Impacts of Land Use and Land Cover on Urban Heat Islands: A Case Study of Shanghai, China
[J].
Land Cover Change Monitoring Using Landsat MSS/TM Satellite Image Data over West Africa between 1975 and 1990
[J].
Understanding Driving Forces and Implications Associated with the Land Use and Land Cover Changes in Portugal
[J].
High-resolution Global Maps of 21st-Century Forest Cover Change
[J].
Case Library Construction Method Using High-resolution Remote Sensing Land Cover Classification Information
[J].
Uncertainty in Land Cover Datasets for Global Land-surface Models Derived from 1 km Global Land Cover Datasets
[J].
Prior Season Crop Type Masks for Winter Wheat Yield Forecasting: A US Case Study
[J].
Characteristics of Maximum-value Composite Images from Temporal AVHRR Data
[J].
Atmospheric Correction of MODIS Data in the Visible to Middle Infrared: First Results
[J].
First Operational BRDF, Albedo Nadir Reflectance Products from MODIS
[J].
Review on Methods of Remote Sensing Time-series Data Reconstruction
[J].
遥感时间序列数据滤波重建算法发展综述
[J].
Rice Crop Phenology Mapping at High Spatial and Temporal Resolution Using Downscaled MODIS Time-series
[J].
Deng Fangping. Doubling MODIS-NDVI Temporal Resolution :from 16-Day to 8-Day
[J].
MODIS-NDVI时间分辨率加倍算法:从16-Day到8-Day
[J].
Detection of Land Cover Change Using an Artificial Neural Network within a Temporal Sliding Windowon Modis Time Series Data
[C]//
Urban Vegetation Phenology Analysis Using High Spatio-temporal NDVI Time Series
[J].
Evaluation of the Potential of MODIS Satellite Data to Predict Vegetation Phenology in Different Biomes:An Investigation Using Ground-based NDVI Measurements
[J].
Extracting the Spatio-temporal Pattern of Cropping Systems from NDVI Time Series Using a Combination of the Spline and HANTS Algorithms: A Case Study for Shandong Province
[J].
Land Cover Classification Using Random Forest with Genetic Algorithm-based Parameter Optimization
[J].
Land Cover Classification based on MODIS Images:Taking the Beijing-Tianjin-Hebei Region as an Example
[J].
Cultivated land in shandong
[M].山东耕地
[M].
/
〈 |
|
〉 |
