基于随机森林的京津冀地区PM2.5遥感反演及变化分析

doi:10.11873/j.issn.1004-0323.2022.2.0424

基于随机森林的京津冀地区PM_2.5遥感反演及变化分析

康新礼^,¹^,², 张文豪^,¹^,², 刘原萍¹^,², 顾行发³, 余涛³, 张丽丽³, 徐桦昆¹^,²

1.北华航天工业学院遥感信息工程学院，河北廊坊 065000

2.河北省航天遥感信息处理与应用协同创新中心，河北廊坊 065000

3.中国科学院空天信息创新研究院遥感卫星应用国家工程实验室，北京 100094

PM_2.5 Remote Sensing Retrieval and Change Analysis in Beijing-Tianjin-Hebei Region based on Random Forest Model

Kang Xinli^,¹^,², Zhang Wenghao^,¹^,², Liu Yuanping¹^,², Gu Xingfa³, Yu Tao³, Zhang Lili³, Xu Huakun¹^,²

1.School of Remote Sensing and Information Engineering，North China Institute of Aerospace Engineering，Langfang 065000，China

2.Heibei Spacer Remote Sensing Information Processing and Application of Collaborative Innovation Center，Langfang 065000，China

3.National Engineering Laboratory for Satellite Remote Sensing Applications，Aerospace Information Research Institute，Chinese Academy of Sciences，Beijing 100094，China

通讯作者: 张文豪（1986-），男，北京朝阳人，副教授，主要从事大气环境遥感研究。E⁃mail: zhangwh@radi.ac.cn

收稿日期: 2021-06-07 修回日期: 2022-02-27

基金资助:

国家自然科学基金项目.  41801255.  41907192
河北省自然科学基金项目.  D2020409003
河北省高等学校科学技术研究项目.  ZD2021303
北华航天工业学院博士科研启动基金.  BKY⁃2021⁃31
高分辨率对地观测系统重大专项.  30⁃Y30F06⁃9003⁃20/22
民用航天预研项目.  D040102
国防基础科研项目.  JCKY2020908B001
国防基础科研计划.  JCKY2019407D004
北华航天工业学院博士科研基金项目.  BKY201703

Received: 2021-06-07 Revised: 2022-02-27

作者简介 About authors

康新礼（1997-)，男，安徽阜阳人，本科生，主要从事大气环境遥感研究E⁃mail:kang.xinl@qq.com , E-mail：kang.xinl@qq.com

摘要

大气细颗粒物PM_2.5是影响人类生存环境和身体健康的主要大气环境污染物，研究PM_2.5质量浓度季节变化的规律及空间分布特征，对于大气污染物的预防和治理有着重要的意义。利用2018~2020年MODIS卫星L2级AOD产品、MERRA-2气象数据以及地面站点PM_2.5实测数据，基于改进的随机森林算法，构建AOD-PM_2.5反演模型，对京津冀地区PM_2.5质量浓度进行估算，并分析PM_2.5质量浓度空间分布特征以及季节变化规律。结果表明：①春夏秋冬4组模型决定系数（R²）均值分别为0.78、0.66、0.83、0.83，模拟精度较高。②2018~2020年京津冀地区春夏秋冬四季PM_2.5浓度呈显著的空间分布特征及季节变化规律。其中PM_2.5污染最大值出现在冬季，最小值出现在夏季。③历年同季节相比，京津冀地区PM_2.5污染范围和浓度数值均有所减小，2020春季和秋季PM_2.5污染范围与2018年、2019年相比改善较明显。

关键词： PM_2.5 ; 随机森林 ; MODIS ; MERRA-2 ; 京津冀

Abstract

Atmospheric fine particulate matter PM_2.5 is the main atmospheric environmental pollutant that affects human living environment and health. It is of great significance to study the seasonal variation and spatial distribution characteristics of PM_2.5 mass concentration for the prevention and treatment of air pollutants. In this study， the MODIS L2 AOD products， MERRA-2 meteorological data and the PM_2.5 measured data from ground stations from 2018 to 2020 were used to build the AOD-PM_2.5 inversion model based on the improved random forest algorithm. The PM_2.5 in Beijing-Tianjin-Hebei region was estimated， and the spatial distribution characteristics and seasonal variation of PM_2.5 mass concentration were analyzed. The results showed that：（1） The mean values of determination coefficients （R²） of spring， summer， autumn and winter model were 0.78， 0.66， 0.83 and 0.83， respectively. And the accuracy of simulation is higher.（2） The PM_2.5 concentrations of spring， summer， autumn and winter in Beijing-Tianjin-Hebei region from 2018 to 2020 showed significant spatial distribution characteristics and seasonal variation. The maximum of PM_2.5 concentrations occurred in winter and the minimum value appeared in summer. （3） Compared with the same season over the years， the PM_2.5 pollution range and PM_2.5 concentration in the Beijing-Tianjin-Hebei region have improved. Compared with 2018 and 2019， the PM_2.5 pollution range in spring and autumn of 2020 improved significantly.

Keywords： PM_2.5 ; Random Forest ; MODIS ; MERRA-2 ; Beijing-Tianjin-Hebei

PDF (10038KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

康新礼, 张文豪, 刘原萍, 顾行发, 余涛, 张丽丽, 徐桦昆. 基于随机森林的京津冀地区PM_2.5遥感反演及变化分析. 遥感技术与应用[J], 2022, 37(2): 424-435 doi:10.11873/j.issn.1004-0323.2022.2.0424

Kang Xinli, Zhang Wenghao, Liu Yuanping, Gu Xingfa, Yu Tao, Zhang Lili, Xu Huakun. PM_2.5 Remote Sensing Retrieval and Change Analysis in Beijing-Tianjin-Hebei Region based on Random Forest Model. Remote Sensing Technology and Application[J], 2022, 37(2): 424-435 doi:10.11873/j.issn.1004-0323.2022.2.0424

1 引言

随着经济发展和城市建设的加快，我国空气质量污染问题较为突出。近年来，PM_2.5等大气颗粒物（Particulate Matter，PM）浓度快速上升已经成为城市污染的首要污染物^［1］。空气污染不仅影响着城市的经济发展，同时对人类身体健康有着严重威胁，每年约有130万人因严重的空气污染和雾霾天气引发的各种疾病而死亡^［2-4］。研究PM_2.5时空分布特征及其变化规律，对于大气污染防治以及环境改善有着重要意义^［5-7］。

气溶胶光学厚度（Aerosol Optical Depth，AOD）是在大气环境中悬浮的直径在0.001~100 μm的各种固体、液体小质点所组成的稳定混合体系。其在对流层的整层大气内的气溶胶含量可以用来作为大气污染的重要指标^［8］。PM_2.5是指空气中动力学直径小于等于2.5 μm的颗粒物，大气细颗粒物具有颗粒小、输送距离远、面积大、流动性强和可累积的特性。PM_2.5颗粒容易附着有机或无机的有害分子，它对人类身体健康有极大的危害，目前已被国内外诸多研究人员证实^［9］。

PM_2.5的主要监测方法有地面站点监测和卫星遥感监测。地面站点监测主要是基于定点采样技术获取数据，虽然可以精确获得实时的结果，但是仅能反映小范围内的空气污染情况，而且站点稀少且分布不均，很多地区无法测量，通常还需要辅助化学分析仪器，费用昂贵^［10-11］。卫星遥感监测是对卫星观测数据与地面实测PM_2.5的关系进行统计分析。Jun等^［12］利用美国阿拉巴马州杰斐逊县7个地面站点测量的PM_2.5浓度与中分辨率成像光谱仪（Moderate Resolution Imaging Spectroradiometer，MODIS）气溶胶产品进行相关性分析，验证了PM_2.5与气溶胶之间线性相关系数R为0.7；Song等^［13］利用卫星AOD数据建立地理加权回归模型，该模型能够解释地面PM_2.5浓度73.8%的变异性；Hu等^［14］利用美国大陆监测PM_2.5浓度、MODIS 10 km AOD数据和土地覆盖等数据构建随机森林模型，估算2011年美国周边地区24 h地面PM_2.5的日平均浓度；贾松林等^［15］构建了适应于北京及周边地区PM_2.5与AOD的一元简单线性、多元线性和非线性回归模型，其反演结果R²分别为0.301 2、0.554 9、0.743 1，3种模型均存在着高估和低估的现象。卫星遥感具有大面积同步观测、获取信息的速度快、周期短、手段多、信息量丰富等特点，用于PM_2.5的大面积反演，可有效弥补地面监测的不足^［16］，卫星遥感已经成为监测PM_2.5的一种重要手段。

地表压强、湿度、季节等属性影响着PM_2.5与气溶胶光学厚度的相关性^［17-18］。本研究利用AOD数据与PM_2.5浓度关系构建随机森林算法模型，并加入地表压强、地表风速、地表大气温度、地表绝对湿度等对PM_2.5浓度垂直分布有影响的气象因素，基于改进的随机森林算法，构建气溶胶光学厚度反演PM_2.5浓度模型（AOD-PM_2.5）。将2018~2020年3 a数据分季节进行模型训练和参数优化。研究表明，反演结果可以反映京津冀地区PM_2.5浓度的时空分布特征和季节变化趋势，从而为PM_2.5的监测和治理提供数据和技术支撑。

2 研究区域及数据来源

2.1　研究区概况

以北京市、天津市、河北省3个行政区域作为研究区，以下简称京津冀。京津冀位于华北平原，地理坐标为36°01′~42°37′ N，113°04′~119°53′ E。北接辽宁、内蒙古地区；西邻山西省，左拥太行山；毗邻山东与河南；以东紧傍东海湾。京津冀地区地形地貌复杂多样，由东南向西北逐级上升，平原、盆地、丘陵、山地、高原依次排列；燕山山脉东西走向，太行山山脉东北西南走向。

京津冀地区属于温暖半湿润大陆性季风型气候，雨水充足，四季分明，气候温暖。春秋两季时间短，冬季时间长，由东南向西北平均气温逐渐降低，南北温差很大。春季降水少，夏季多暴雨和阵雨，西北部降水低于东南部，主要降水集中在夏季，黄海岸比较湿润，渤海岸降水较少，比较干燥。

2.2　数据来源

2.2.1　遥感气溶胶数据

MODIS传感器是美国国家航空航天局（National Aeronautics and Space Administration，NASA）地球观测系统（Earth Observing system，EOS）系列卫星中“图谱合一”的光学传感器，搭载Terra和Aqua卫星上^［19］。实验使用的大气气溶胶光学厚度数据为MOD/MYD04_3K（MODIS Terra/Aqua Aerosol 5-Min L2 Swath 3km）产品数据（https：//ladsweb.modaps.eosdis.

nasa.gov/search/order/4/MOD04_3K-61），该数据可用来获取全球海洋和陆地环境的大气气溶胶光学特性和质量浓度，其空间分辨率为3 km，版本为C6，以HDF4格式提供。本研究选用京津冀地区2018~2020年的AOD产品数据，对其进行重投影、裁剪等预处理。由于受雨、雪、云和地表覆盖等条件影响有部分AOD值缺失，通过反距离加权插值算法（Inverse Distance Weight，IDW）对影像缺失值进行填充。

2.2.2　气象数据

MERRA-2（The Modern-Era Retrospective analysis for Research and Applications， Version 2）是由NASA戈达德地球科学数据和信息服务中心（Goddard Earth Sciences Data and Information Services Center，GESDISC）在融合多种气象观测资料和卫星数据基础上，生成的MERRA再分析数据集^［20］。MERRA-2中包括各种气象变量，其空间分辨率为0.5°×0.625°，时间分辨率为1 h。本研究选用2018~2020年的MERRA-2气象数据（https：//disc.gsfc.nasa.gov/datasets），包括地表压强、地表绝对湿度、地表风速、地表大气温度，对数据进行提取、裁剪、重投影等预处理，经过预处理后气象数据的空间分辨率与MODIS AOD一致。

2.2.3　地面站点PM_2.5数据

地面站点实测PM_2.5浓度数据来自中国环境监测总站（http：∥www.cnemc.cn/），2018~2020年地面空气监测站点为0~24 h逐小时的PM_2.5数据，将地面站点实测数据与AOD数据进行时空匹配。经筛选京津冀地区共78个可用监测站点，其分布如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 2018~2020京津冀地区地面站点分布图

Fig.1 Distribution map of ground stations in Beijing-Tianjin-Hebei region from 2018 to 2020

3 研究方法

利用MODIS AOD产品、MERRA-2、地面站点PM_2.5数据，基于随机森林的机器学习模型，进行京津冀地区PM_2.5浓度反演，流程如图2所示。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 京津冀地区PM_2.5浓度反演流程图

Fig.2 Inversion of PM_2.5 concentration flow chart in Beijing-Tianjin-Hebei region

（1）对MODIS AOD产品进行重投影、裁剪、镶嵌、反距离加权插值等处理；将MERRA-2数据中气象变量（地表压强、地表绝对湿度、地表风速、地表大气温度）进行提取并预处理。

（2）将AOD、气象变量、地面站点PM_2.5在时间和空间上匹配，作为模型训练样本和验证样本。

（3）将数据集分为春夏秋冬进行随机森林模型训练及验证，并统计预测值与实测值误差，统计指标参数包括决定系数（coefficient of determination，R²）、均方根误差（Root Mean Squared Error，RMSE）。

（4）最后，将2018~2020年AOD、气象变量导入模型中，得到京津冀地区PM_2.5浓度的空间分布图，并对反演结果分析。

3.1　反距离加权插值

针对AOD由于云层干扰、雨雪天气等原因造成的数据缺失问题，利用反距离加权插值算法进行缺失值填充，反距离加权插值算法是基于相近相似的原理^［21］，每一个测量点都对预测点具有一定的影响，即权重。权重随着测量点和预测点之间距离的增加而减小，即距离预测点越近则测量点的权重越大，当测量点和预测点之间距离超过一定范围，权重可以忽略不计。幂值控制着权系数随着测量点和预测点之间距离的变化而改变的幅度。计算公式如下：

Z_{j}

\sum_{i = 1}^{n} W_{i} * h_{i}

（1）

其中： $Z_{j}$ 是第j个预测点值；n为测量点的总数；W_i 是第i个测量点的权重； $h_{i}$ 是第i个测量点到预测点的距离。其中W_i 的计算公式如下：

W_{i} = \frac{h_{i}^{- p}}{\sum_{i = 1}^{n} h_{i}^{- p}}

（2）

其中：p是距离的幂值，通常为0.5~3较合理，本研究设置为2。 $h_{i}$ 的计算公式如下：

h_{i} = \sqrt[]{(x - x_{i})^{2} + (y - y_{i})^{2}}

（3）

其中：（x，y）为预测点坐标；（ $x_{i}$ ， $y_{i}$ ）为测量点坐标。

3.2　时空匹配

将2018~2020年实验数据按四季分为春（3~5月），夏（6~8月），秋（9~11月），冬（12月，次年1~2月）。将插值之后的AOD数据与地表压强、地表绝对湿度、地表风速、地表大气温度和地面站点PM_2.5数值进行时空匹配。

AOD数据时间为国际时间，需要将该数据的国际时间转换为北京时间（UTC/GMT +8），气象数据时间分辨率为1 h，地面站点PM_2.5数据监测时间间隔为1 h。以3 a AOD数据为基准进行时空匹配，经过筛选剔除无效值得到春季组19 184条数据集，夏季组19 298条数据集，秋季组13 883条数据集，冬季组13 408条数据集，一共65 773条数据集，图3是各变量数值变化范围的统计直方图。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 因变量与自变量统计（最小值、最大值、均值、标准差）

Fig.3 Statistical chart of dependent and independent variables

3.3　AOD-PM_2.5反演模型构建

3.3.1　随机森林算法

随机森林（Random Forest，RF）是一种由Breiman和Cutler在2001年提出的分类回归算法，以多个决策树对样本进行训练并预测为基本分类器的集成学习模型^［22］，每一颗决策树之间是独立的，并且森林的所有树具有相同的分布^［23］，因此训练随机森林模型可以通过并行处理来实现，从而提高模型的训练速度。随机森林算法与传统的多元线性回归模型相比，不用预先设定函数形式，而且能克服变量之间复杂的交互作用，与神经网络相比，随机森林算法不容易过拟合，与支持向量机相比，随机森林算法参数优化易于控制和使用^［24］。

随机森林选择样本的方法是有放回的随机抽样，所以构建回归树时有一部分样本不被选中，起到了样本内部交叉验证的作用，使模型不易出现过拟合现象。本研究中随机森林算法步骤如下：

（1）样本选择。从原始样本集N中有放回的抽取n个样本，得到一个大小为n的训练集。

（2）生成决策树。在每一轮生成决策树的过程中，从D个特征中随机选择d个特征组成新的特征集，并使用新的特征集生成决策树。生成决策树过程中，每个特征集都是随机抽取的，所以每个决策树都是相互独立的。

（3）组合模型。由于决策树之间相互独立，每个决策树的权重相等，将所有决策树预测结果的均值作为最终预测结果。

随机森林模型最重要的两个参数分别是决策树的个数和决策树最大深度，前者决定了对原始数据集进行有放回抽样生成的子数据集个数；后者在样本数量少或者特征少时，不限制最大深度。

3.3.2　模型拟合评价指标

选择决定系数 $R^{2}$ 和均方根误差RMSE来评价所构建的模型精度。公式如（4）和（5）所示：

R^{2} = \frac{{[\sum (X_{i} - \bar{X}) \sum (Y_{i} - \bar{Y})]}^{2}}{\sum (X_{i} {- \bar{X})}^{2} \sum (Y_{i} {- \bar{Y})}^{2}}

（4）

其中：X_i 是第i个实测值； $\bar{X}$ 是实测值的平均值；Y_i 为第i个预测值； $\bar{Y}$ 为预测值的平均值。

R M S E_{j} = \sqrt[]{\frac{\sum_{n = 1}^{N} (x_{j} - y_{j})^{2}}{N}}

（5）

其中：N为训练样本个数；x_j 是第j个预测值；y_j 是第j个实测值。

3.3.3　模型构建

由于各季节的气象环境和气溶胶物化特性存在较大差异，导致AOD和PM_2.5的相关性因季节差异而有所不同，使用长时间序列的样本会降低拟合精度。因此全年或个别时间段的AOD与PM_2.5的相关函数并不具有代表性^［25］。选择按季节进行分组分别训练模型，可以减少误差，提高模型精度。将数据集分为春、夏、秋、冬4组，通常训练样本分布越均匀，训练的模型可靠性越强，所以每组训练模型时将数据顺序打乱，以保证数据的随机性。以每组80%的数据为训练集，剩下20%为测试集，用于模型精度分析。通过优化决策树的个数和决策树最大深度两个参数以提高模型预测精度^［26］。其中决策树的个数取值2~300，间隔为2；决策树最大深度取值2~300，间隔为2。并对随机森林算法得到的各变量重要性大小进行排序。变量重要性是指预测变量对预测精度贡献率的大小，值越大表示变量越重要。在随机森林模型中，其变量重要性为相对重要性，总和为1^［27］。

同组训练集和测试集数据打乱的随机因子相同，保证了训练和测试时数据的均匀且防止了因数据的不同导致测试分析的误差。其中春季组训练集有15 347条数据，测试集有38 37条数据；夏季组训练集有15 438条数据，测试集有3 860条数据；秋季组训练集有11 106条数据，测试集有2 777条数据；冬季组训练集有10 726条数据，测试集有2 682条数据。

由图4模型精度分析看到，春季组决策树个数在200之后，决定系数R²稳定在0.76左右，均方根误差RMSE稳定在22左右，随着增加决策树个数，R²和RMSE优化程度很小；决策树最大深度在50到150之间模型R²和RMSE波动较小。夏季组决策树个数在150之后，R²稳定在0.64左右，RMSE稳定在11左右，随着决策树个数增加，R²和RMSE优化程度很小；决策树最大深度在50到100之间模型R²和RMSE波动较小。秋季和冬季决策树个数在200之后R²和RMSE较为稳定，R²在0.83附近波动；决策树最大深度在50之后，R²秋冬季均在0.8处波动，RMSE分别在17和30附近波动，冬季的均方根误差在30左右。春夏秋冬四组模型决策树个数分别取150、200、150、200；决策树最大深度均为100。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 决策树个数和最大深度的参数优化

Fig.4 Parameter optimization of the number and the maximum depth of decision trees

图5（a）是4个季节十次交叉验证结果折线图，决定系数平均值分别为0.78、0.66、0.83、0.83，本文4个季节模型的站点决定系数误差如图5（b）、（c）、（d）、（e）所示，其中站点R²大于等于0.7最多的是冬季，占比87%（78个站点中有68个），最少的是夏季，R²大于等于0.7的占比42%（78个站点有33个）。春夏秋冬四季地面站点平均决定系数分别为0.73、0.58、0.79、0.77，在空间分布方面，保定和沧州表现较好。杨颖川等^［28］建立AOD、能见度、PM_2.5浓度的三元回归模型，春夏秋冬决定系数分别为0.72、0.87、0.78、0.65，春秋冬3组均低于本研究所建立的模型，但是空间分布趋势与本研究结果一致。王伟齐等^［29］研究了北京市12个空气质量监测站PM_2.5的5 h和24 h两种时间段平均浓度与AOD的关系模型平均决定系数分别为0.57和0.48。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 随机森林模型精度评价

Fig.5 Accuracy evaluation for random forest model

图5（f）、（g）、（h）、（i）是春夏秋冬4组实测值与模型预测值的散点图，其中夏季PM_2.5变化相对平缓，但模型决定系数相对较低，可能是由于是夏季气象条件变化比较快，特别是降雨频繁，湿度在时间和空间上变化较快，而夏季模型中湿度所占权重较大，然而较低的气象数据分辨率低并不能充分描述夏季快速变化的气象环境，从而导致夏季模型决定系数不高。从散点图看到，4组均出现了高值低估、低值高估现象，其原因可能为：在污染比较严重的天气下AOD反演失效，缺乏高PM_2.5值的反演结果；另一主要原因可能是反距离加权插值结果并不能完全反映出AOD的真实变化，当AOD高值区域缺失，该区域插值点结果有可能被低估。京津冀地区地面监测站点分布不均匀，监测站点主要集中在污染严重的城市区域，污染较轻的郊区和山区站点稀少甚至没有站点监测数据，所以在污染较轻的地区，反距离加权插值结果往往会高估。春夏秋冬4组模型的RMSE分别为20.4、12.6、18.8、26.5，其中春秋冬3组与夏季相比略高，主要原因是春秋冬3个季节的PM_2.5浓度较高，夏季PM_2.5浓度偏低。此外，气象数据误差和数据时空匹配偏差也可能是导致RMSE较高的一个原因。

4 结果与分析

4.1　单日结果对比

经过模型精度分析，将数据按四季进行分组分别训练模型，春、秋、冬3组预测值与实测值决定系数达到了0.8左右，夏季模型决定系数为0.65。

受云、地表覆盖和气溶胶反演算法的限制，MODIS的AOD产品在空间上常常出现缺失，因此本文采用反距离加权算法进行缺值弥补。图6显示部分AOD数据插值前后的对比，即2019年9月5日、9月21日、9月28日、2020年5月1日。图6（a）、（b）、（c）、（d）为原始AOD数据，图6 （e）、（f）、（g）、（h）是经过反距离加权插值后的AOD数据。从图中可以看到，AOD数据经过反距离加权插值之后，数据保持了空间的连续性，同时与原始AOD数据空间分布趋势一致，未出现明显的区块效应。通过将插值之后的AOD数据和地表压强、地表绝对湿度、地表风速、地表大气温度等气象数据进行时空匹配，反演得到京津冀PM_2.5质量浓度图，如图6（i）、（j）、（k）、（l）所示。将反演得到的PM_2.5浓度图与插值之后的AOD图对比，PM_2.5质量浓度与AOD分布区域有较好的一致性。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 单日反演结果，（（a）~（d）为原始AOD数据，（e）~（h）为插值后的AOD，（i）~（l）为反演的PM_2.5）

Fig.6 The inversion results in some single days

4.2　季均值结果分析

图7~图8是2018~2020年京津冀地区PM_2.5浓度季节平均值的空间分布图和污染数值统计图。从图中可以看到，对于季节的污染程度和范围：冬季（12月、1月、2月）>春季（3~5月）>秋季（9~11月）>夏季（6~8月），PM_2.5浓度季节性变化受气象因素以及人类社会活动等诸多因素的影响。

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 2018~2020年PM_2.5季节均值结果

Fig.7 Seasonal average results of PM_2.5 during 2018~2020

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 2018~2020年PM_2.5季节均值统计图

Fig.8 Statistical chart of PM_2.5’s seasonal mean value during 2018~2020

2018~2020三年的PM_2.5随季节变化的规律大致相同，对2019年分析可以看到，冬季是4个季度PM_2.5污染浓度分布最广，污染数值最高的季度，其污染浓度值49%集中在60 μg/m³以上，分析原因可能是进入冬季节，随着地面温度降低，边界层下将，大气层结趋于稳定，环境容量较春夏季有所下降，地面气温低会出现“逆温”现象，使得污染物在近地层不断增加，PM_2.5达到高浓度水平。并且部分地区开始供暖，化石燃料燃烧排放增加，在静稳条件下，容易出现区域性污染。靠近西北部区域有小部分浓度低值，可能与西北部地势高人口较少，从而人为排放较少有关。

春季相较于冬季PM_2.5浓度和高值范围总体有所下降，PM_2.5浓度71%集中在30~60 μg/m³，污染主要集中在南部区域，在北部区域污染数值普遍低于30 μg/m³，其主要原因可能是由于河北南部人口密度变大，工业经济发展使用大量能源，城市的快速发展促使城市建设用地急剧增加，城市的建设发展对于PM_2.5浓度值的贡献也相应上升。

夏季是一年中PM_2.5浓度值最低、污染范围最小、空气质量最好的一个季节。与其他季节相比，PM_2.5浓度最大值减小，PM_2.5浓度72%集中在15~30 μg/m³之间，得益于夏季地面空气温度高，气温随着海拔升高而降低。下层空气温度高，上层空气温度低，冷热空气上下交替，就会形成对流，大气垂直运动活跃，污染物容易扩散。此外，夏季较频繁的降雨及大风天气，有利于PM_2.5的扩散和清除，因而一年中夏季的PM_2.5浓度最低。

秋季PM_2.5浓度高值区间低于春季和冬季，86%集中在15~45 μg/m³之间，中南部污染相较西北部高一些。与夏季的暴雨相比，秋季的雨水持续时间较短，风速和风力较小，对空气中污染物的冲刷效果不明显，而起到增加空气湿度的作用，潮湿的空气会更容易造成悬浮物的累积。

为保障国家环境安全、应对气候变化和保护生态环境，2018~2020年国家实行蓝天保卫战《三年行动计划》，在京津冀地区采取一系列大气治理的措施，因此总体而言，2020年较2018年环境空气质量有明显改善。

5 结论

本文采用NASA发布的MODIS L2级气溶胶产品数据、MERRA-2气象数据（表层压强、表层绝对湿度、表层风速、表层大气温度）和地面站点PM_2.5浓度监测数据，按春夏秋冬四季分别构建AOD-PM_2.5随机森林算法反演模型，通过模型参数优化，反演出2018~2020年京津冀地区PM_2.5浓度值，从而对PM_2.5浓度的季节空间分布和变化特征进行分析。得到以下结论：

（1）随机森林算法效率高，对于大量训练样本，随机森林训练速度有优势，实验结果表明，研究搭建的随机森林PM_2.5反演模型可以取得较好的PM_2.5反演效果。

（2）由于气象原因出现AOD影像缺失问题，本研究使用反距离加权插值算法对图像进行缺失值填补，且图像插值结果较好的反映了AOD的空间分布并未出现明显的区块效应。

（3）由于京津冀地区春夏秋冬季节变化显著，将数据集按照季节分组，分别进行模型训练，春夏秋冬4组模型决定系数均值分别为0.78、0.66、0.83、0.83，模拟精度较高。

通过对PM_2.5季节均值反演结果分析，PM_2.5浓度分布表现出明显的季节性变化特征，冬季PM_2.5污染最严重，春季和秋季次之，夏季最低。大于75 μg/m³的高值区在冬季出现，其主要原因是由于冬季供暖污染物排放浓度高、强度大，导致PM_2.5的排放量增加，同时冬季极易出现的“逆温”现象更有利于PM_2.5的聚集。夏季是四季中污染程度最轻、空气质量最好的季节。春秋两季污染程度低于冬季，PM_2.5浓度空间分布出现“东南高西北地”的特点，PM_2.5分布不仅与区域污染物排放有关，同时也与地理条件和地形条件有一定关系。

近年来已经发射的高分辨率卫星越来越多，采用更高空间分辨率的影像用于反演PM_2.5是今后的研究重点之一。另外，因云、地表覆盖等因素导致气溶胶数据缺失，更好的插值算法也是研究PM_2.5空间分布特征的重点。

大气PM_2.5的监测与防治对生态环境的建设和人体健康有着重要的意义，本研究提出了基于随机森林的卫星遥感反演PM_2.5的方法，希望有助于进一步提升空气质量的监测能力。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Yonghui

， Wang

Yang

， Yi

Qinghuan

，et al.

The study on air quality change of Nanchang city from 2004 to 2015 years based on satellite remote sensing MODIS data

［J］. Journal of Jiangxi Normal University（Natural Science Edition），2019，43（2）：214-220.