数据驱动的植被总初级生产力估算方法研究
1.
2.
3.
Data-Driven Estimation of Gross Primary Production
1.
2.
3.
通讯作者:
收稿日期: 2018-06-30 修回日期: 2020-06-06 网络出版日期: 2020-09-14
基金资助: |
|
Received: 2018-06-30 Revised: 2020-06-06 Online: 2020-09-14
作者简介 About authors
张坤(1993—),男,山东烟台人,硕士研究生,主要从事机器学习与空间数据挖掘研究E⁃mail:
关键词:
Keywords:
本文引用格式
张坤, 刘乃文, 高帅, 赵书慧.
Zhang Kun, Liu Naiwen, Gao Shuai, Zhao Shuhui.
1 引 言
遥感技术的迅猛发展发展,为解决这一问题提供了基础,基于遥感数据的GPP过程模型成为估算大空间尺度GPP较为精准的方法。比如MOD17A3H的GPP数据就是利用BIOME-BGC模型与光能利用率模型得到的[7]。光能利用率模型是基于太阳辐射的利用率来估算植被光合作用的固碳量,该模型较为简单,所需的参数可以通过遥感技术大范围获取,因此可以获得大空间尺度和长时间序列的GPP估算结果。然而受到水分温度等具体环境胁迫因素影响,不同植被功能类型的光能利用率模型也存在较大的时空差异,对估算精度造成影响。
2 研究区与数据
2.1 研究区概况
研究区为长白山等8个站点及周围区域。8个地点均具有较强的代表性。根据IGBP的全球植被分类方案,站点的植被类型等信息如表1所示。
表1 研究区信息
Table 1
站点名称 | 纬度/°N | 经度/°E | 植被类型 |
---|---|---|---|
长白山 | 42.403 | 128.096 | 混交林 |
千烟洲 | 26.733 | 115.067 | 木本热带稀树草原 |
鼎湖山 | 23.167 | 112.530 | 常绿阔叶林 |
西双版纳 | 21.950 | 101.200 | 常绿阔叶林 |
锡林格勒 | 44.130 | 116.320 | 草地 |
禹城 | 36.833 | 116.567 | 农用地 |
拉萨当雄站 | 30.410 | 91.080 | 草地 |
海北站 | 37.660 | 101.330 | 草地 |
长白山站位于长白山自然保护区,属于温带大陆性气候,春季干旱多风,夏季炎热多雨,冬季干燥寒冷。
千烟洲人工林通量观测站地处江西省吉安市泰和灌溪镇,属于亚热带季风气候,夏季高温多雨,冬季温和少雨,四季分明。
鼎湖山通量观测站位于广东省肇庆市境东北部。该站点属南亚热带季风湿润气候,日照长,终年温暖。
西双版纳热带雨林通量观测站处于云南省西双版纳傣族自治州勐腊县,属于热带季风气候,一年中有雾凉季、干热季、湿热季之分,终年无霜。
锡林郭勒温性典型草原通量观测站位于内蒙古自治区锡林郭勒盟白音锡勒牧场,属于大陆性温带半干旱草原气候,冬春寒冷干燥,夏秋温暖湿润,受季风影响,具有明显的雨热同期特征。
禹城农田通量观测站,位于山东省禹城市西南,属于暖温带半湿润季风气候区,雨热同期,利于农业生产。
当雄高寒草甸碳通量观测站,位于西藏当雄县草原站,代表了藏北高原中部地区高寒草甸向高寒草原过渡的草原化草甸类型,属于高原季风气候。
海北高寒草甸生态系统通量观测站位于青藏高原,属于高原大陆性气候,海拔高气温极低,无明显四季之分,仅冷暖季之别,干湿季分明。
2.2 GEE平台
美国国家航空航天局、欧洲空间局等全球多个政府机构费提供了海量的遥感数据,并开发了相应的工具来进行处理。但是使用这些工具需要很强的计算机专业性,因此对一些科研人员来说灵活使用这些数据还有一些困难。
2.3 数据
统计降雨量时使用了PERSIANN-CDR[21]。PERSIANN-CDR是使用人工神经网络算法生成的一种全球日降水量产品,空间分辨率为0.25 °,涵盖了从1993至今的全球降水数据。
3 方 法
3.1 实验方法
将通量塔实测GPP数据作为真值,从Google Earth Engine获取通量塔站点及周围3个MODIS象元的EVI、NDVI、温度、降水数据平均值作为影响因子,建立随机森林模型。流程如图1所示。
图1
首先收集中国通量观测网2003年到2007年的实测GPP数据,然后从Google Earth Engine平台获取到相同时间段的遥感数据,将两者组成数据集,剔除掉异常数据后,将前三年的数据作为训练集,剩下的数据作为测试集。
研究使用机器学习中随机森林算法,首先使用训练集对模型进行训练,并根据数据特点对模型参数进行调整,选出最优的模型参数后对测试集进行预测,然后将预测结果与通量观测值进行对比,分析预测精度。最后将预测结果与MODIS数据进行对比,分析预测结果的可靠性。
3.2 随机森林
4 结果与讨论
4.1 影响因子重要性和模型参数
在使用训练组数据对模型进行训练后,各因素对结果的影响如图2所示。
图2
图中可以看出对GPP影响最大的因素是EVI,这符合我们的预期,因为影响光合作用强弱最大的因素就是光照。后期试验还表明,当不考虑植被类型数据时,降水和温度的重要性将大幅提高,这也符合预期,因为植被类型的差异主要是由温度和降水导致的。
通过对模型调参可以获得更好的实验结果。每种机器学习模型的参数都不尽相同,随机森林模型参数主要有决策树最大深度(max_depth)、最大特征数(max_features)和最大迭代次数(n_estimators)。
本文模型的准确率与最大深度(max_depth)、最大特征数(max_features)关系如图3所示。由于数据量不算庞大,因此本模型不限制这两个参数。
图3
图4
表2 最大迭代次数调参表
Table 2
最大迭代次数 | RMSE | 排名 |
---|---|---|
10 | 3.06 | 10 |
20 | 2.82 | 9 |
30 | 2.73 | 8 |
40 | 2.70 | 7 |
50 | 2.66 | 6 |
60 | 2.64 | 4 |
70 | 2.63 | 2 |
80 | 2.62 | 1 |
90 | 2.64 | 3 |
100 | 2.64 | 5 |
4.2 预测结果
调参完成后,将测试组数据导入模型中进行预测,本文将通量塔数据作为实测数据,与预测数据进行对比,验证其精度。所预测的GPP结果与通量塔实测值对比如图5所示,经计算,预测结果的R2为0.87,RMSE为1.132 gC·m-2·d-1,表明模型的模拟结果准确度较高。
图5
4.3 分析对比讨论
为了验证模型预测的可靠性,将MODIS的GPP产品MOD17A3H与预测结果进行对比。MOD17A3H是MODIS陆地4级标准数据产品,基于BIOME-BGC模型与光能利用率模型建立,准确度较高,在国际上具有很高的认可度,已在全球GPP与碳循环研究中得到广泛应用。
图6
5 结 语
随着近年来云计算和大数据的发展,遥感数据的获取变得越来越方便,更多的科研人员可以将遥感数据应用到自己的研究工作当中,有利于遥感技术与多学科交叉发展。
本文对遥感技术与计算机技术的融合应用进行探索,将随机森林算法和Google Earth Engine平台应用在GPP的估算研究中,利用机器学习算法在回归预测中所具备的优势和GEE平台中的海量遥感数据,建立GPP估算模型,形成了一种全新的基于数据驱动的GPP估算方法。在对计算结果进行分析的基础上,将最终预测结果与MODIS数据进行对比,说明了本研究所建模型具有很高的精确度和可靠性。
但是以上实验所用到的通量数据只是从中国的通量塔站点获取,能否将模型进行更大范围的应用,还需要更多的实验验证。另外,可在以后的研究工作中进一步拓展,如增加更为多样的遥感数据[29],尝试更多的机器学习算法,以期取得更好的结果,实现对更多碳源汇数据的准确估算。
参考文献
Climate Change 2007: The Physical Science Basis. Contribution of Working Group I to The Fourth Assessment Report of The Intergovernmental Panel on Climate Change. Summary for Policymakers
[J].
Forests and Climate Change: Forcings, Feedbacks, and The Climate Benefits of Forests
[J].
National Inventories of Terrestrial Carbon Sources and Sinks: The U.K. Experience
[J].
于贵瑞. 全球变化与陆地生态系统碳循环和碳蓄积
[M].
Primary Production: Terrestrial Ecosystems
[J].
Improvements of A Dynamic Global Vegetation Model and Simulations of Carbon and Water at An Upland-Oak Forest
[J].
Improved Modeling of Gross Primary Productivity (GPP) by Better Representation of Plant Phenological Indicators from Remote Sensing Using A Process Model
[J].
Land Surface Phenology Derived from Normalized Difference Vegetation Index (NDVI) at Global FLUXNET Sites
[J].
Uncertainty Analysis of Gross Primary Production Upscaling Using Random Forests, Remote Sensing and Eddy Covariance Data
[J].
A Mangrove Forest Map of China in 2015: Analysis of Time Series Landsat 7/8 and Sentinel-1A Imagery in Google Earth Engine Cloud Computing Platform
[J].
Wetland Landscape Spatio-temporal Degradation Dynamics Using The New Google Earth Engine Cloud-based Platform: Opportunities for Non-Specialists in Remote Sensing
[J].
Google Earth Engine: Planetary-scale Geospatial Analysis for Everyone
[J].
Mapping Paddy Rice Planting Area in Northeastern Asia with Landsat 8 Images, Phenology-based Algorithm and Google Earth Engine
[J].
Mapping Spring Canola and Spring Wheat Using Radarsat-2 and Landsat 8 Images with Google Earth Engine
[J].
Dynamic Monitoring of Water Bodies in Central Asia based on Modis Satellite Data
[J].
基于MODIS卫星数据的中亚地区水体动态监测研究
[J].
Global Estimation of Burned Area Using MODIS Active Fire Observations
[J].
Integration of MODIS-derived Metrics to Assess Interannual Variability in Snowpack, Lake Ice, and NDVI in Southwest Alaska
[J].
Evaluation of The Snow-covered Area Data Product from MODIS
[J].
Overview of The Radiometric and Biophysical Performance of The MODIS Vegetation Indices
[J].
PERSIANN-CDR: Daily Precipitation Climate Data Record from Multisatellite Observations for Hydrological and Climate Studies
[J].
Carbon Exchange Research in ChinaFLUX
[J].
Breathing of The Terrestrial Biosphere: Lessons Learned from A Global Network of Carbon Dioxide Flux Measurement Systems
[J].
Lessons Learned from IPCC AR4: Scientific Developments Needed to Understand, Predict, and Respond to Climate Change
[J].
A Data-driven Analysis of Energy Balance Closure Across FLUXNET Research Sites: The Role of Landscape Scale Heterogeneity
[J].
Downscaling of Solar-induced Chlorophyll Fluorescence from Canopy Level to Photosystem Level Using A Random Forest Model
[J].
Application of Random Forest Algorithm in Urban Air Quality Prediction
[J].
随机森林算法在城市空气质量预测中的应用
[J].
Estimating Deciduous Broadleaf Forest Gross Primary Productivity by Remote Sensing Data Using A Random Forest Regression Model
[J].
/
〈 |
|
〉 |
