融合高分辨率遥感影像和POI数据的多特征潜在语义信息用于识别城市功能区
1.
2.
3.
Identify Urban Functional Zones Using Multi Feature Latent Semantic Fused Information of High-spatial Resolution Remote Sensing Image and POI Data
1.
2.
3.
收稿日期: 2020-09-15 修回日期: 2021-04-13 网络出版日期: 2021-07-21
基金资助: |
|
Received: 2020-09-15 Revised: 2021-04-13 Online: 2021-07-21
作者简介 About authors
高子为(1996-),男,浙江宁波人,硕士研究生,主要从事城市遥感环境监测方面的研究E⁃mail:
孙伟伟(1985-),男,河南巩义人,博士,教授,主要从事地理信息系统和遥感理论、方法及应用研究E⁃mail:
关键词:
Keywords:
本文引用格式
高子为, 孙伟伟, 程朋根, 杨刚, 孟祥超.
Gao Ziwei, Sun Weiwei, Cheng Penggen, Yang Gang, Meng Xiangchao.
1 引 言
随着城市化的飞速发展,城市空间以“增量扩张”为主的发展模式难以维持,精细化的空间“存量挖潜”成为城市发展的新趋势。城市功能区是存量空间的重要组成部分,厘清城市功能区布局对加强存量利用和优化城市产业结构具有重要作用,包括提升城市产业集聚效能、提高土地利用效率、辅助政府部门管理决策和推进城市化建设的可持续发展等。
遥感技术具有重访周期短、成本低、覆盖范围广等优点[1],尤其高分辨率遥感影像如IKONOS和WorldView-II具有亚米级的空间分辨率,获取的地物空间细节信息更加清晰丰富,为准确识别城市土地利用和功能区提供了可能[2]。因此,有学者开始利用IKONOS高分辨率遥感影像来提取城市土地利用变化信息[3],也有学者利用WorldView-II高分辨率遥感影像来划分城市功能区[4]。然而,高分辨率遥感影像仅使用了地物低层次的灰度或纹理特征,无法准确识别较为相似的不同类别地物。后来,有学者考虑挖掘高分辨率影像的高层次语义特征信息来缩小场景分类的“语义差距”[5],通过构建词袋(Bag of words, BoW)模型来融合光谱、纹理和Scale-Invariant Feature Transform(SIFT)等多特征信息,提高土地利用的分类精度[6]。然而,遥感影像所提取的特征仅代表地物自然物理属性,仍无法完全对接经济社会属性明显的城市土地利用类型。
研究表明,社交媒体数据能够表征人类经济社会活动的内在特征,填补高分辨率遥感影像数据无法精细描述微观个体与用地空间内在联系的空白,有助于识别城市功能区[7]。社交媒体数据在城市功能区识别中已得到了许多应用,如车辆轨迹辅助识别城市区域功能[8]、手机和社交媒体的微博签到数据用于城市动态描述[9]与城市功能区划分[10]、带有地理标记的社交媒体和街景图像用于城市功能研究[11]、兴趣点(Point of Interest, POI)数据用于城市土地利用类型分类[12]。考虑到地物的自然物理特性与社会经济活动信息的互补优势,学者开始研究融合高分辨率遥感图像和社交媒体数据,以提升城市功能区识别的准确度。如Liu等[7]提出了一种基于Latent Dirichlet Allocation(LDA)主题模型融合了高分辨率遥感数据和POI数据的场景分类框架对城市功能分区。然而,LDA的分析处理性能依赖于构建的多个特征的严格精简词汇表,对于大型词汇表难以保证模型的泛化预测能力[13]。后来,Zhang等[14]构建稀疏主题模型,通过度量区域中模式数量及对应的特征比例,整合高分辨率遥感影像和POI数据的多特征语义信息,尝试改善城市功能区的识别精度,但是稀疏主题模型在预测会考虑一些权重较小的特征信息,从而干扰预测结果的正确性,导致识别精度的下降。为此,研究引入词嵌入主题模型(Embedded Topic Model, ETM),融合高分辨率影像和POI数据的多特征信息,挖掘融合数据的内在高层语义知识,提升城市功能区的识别准确性。相比LDA和稀疏主题模型,ETM词嵌入主题模型是一种整合传统主题模型与词嵌入方法的新型文档生成模型。该模型同时包含可解释的潜在语义结构和主题特征,对大型词汇表和复杂城市区域的处理能力较强,在主题质量和预测性能方面优于现有的LDA和稀疏主题模型[15]。基于宁波市2个典型的新旧城市功能区,利用国产高分二号高分辨率影像和POI数据来设计一系列实验,综合验证本文方法的效果和性能。
2 研究方法和原理
图1为研究方法的技术流程图。首先,对遥感影像按照规则格网进行分割,提取每一块格网中影像特征和POI特征信息作为具有一定表达能力的视觉单词。在此基础上,利用词袋模型建立影像和POI特征信息的高层次语义表达,提升视觉特征的表达能力。其次,利用概率主题模型提取上述多特征信息的潜在语义特征。最后,选择迭代选择最优和最优价值的样本用于训练支持向量机模型,对城市功能区进行识别。
图1
2.1 高分辨率影像和POI数据的多特征提取
利用高分辨率影像和POI数据来提取多特征信息,以刻画每个影像格网单元的视觉单词。高分辨率遥感影像的特征提取包括光谱、纹理和空间几何特征信息。POI数据的特征提取包括功能类型和经纬度信息。
(1)光谱特征。光谱特征反映地物表面的物理属性[16]。本文采用波段均值与标准差来描述格网单元的光谱特征
其中:n为每个格网中的像元数量,
首先定义一个3×3的窗口,以窗口中心像素的灰度值作为阈值,比较该阈值与相邻的8个像素的灰度值。计算公式如(3)所示:
其中:
(3)几何特征。研究采用Speeded Up Robust Features(SURF)算子和Evaluation of GIST(GIST)算子来分别提取影像的局部和全局几何特征。SURF是一种局部特征描述子,能够克服仿射变换、光照变化和三维视点变化等传统几何特征描述的不足,提取影像局部几何特征[19]。SURF比SIFT算子具有更低的数据维度和更优的运算效率。
首先为保证尺度不变性,使用不同的模板尺寸对格网进行盒式滤波,构建多尺度斑点响应的金字塔图像,并利用
其中:
其次对每个特征点分配一个主方向,以保证旋转不变性。定义一个以特征点作为圆心,0.2弧度作为步长的60°的扇形滑动窗口,对扇形窗口进行Haar小波响应运算,统计窗口中每个点在水平和垂直方向的小波响应,并累加求和
最后,以特征点为中心,沿着主方向将图像划分为
GIST是一种空间包络特征描述符,从自然度、开放度、粗糙度、膨胀度和险峻度5个方面描述影像的全局特征信息,激活对场景类别的记忆表征,具有较好的识别能力[20]。首先用公式(
其中:
(4)POI特征。POI数据是包含名称、地址、功能和经纬度等空间属性信息的特征点集,蕴含着丰富的人文经济特征以及自然特征,能够揭示城市土地的利用功能[21]。根据道路来分割研究区域,计算每个路网区块中的第
2.2 多特征融合的BoW字典构建
采用词袋模型来构建视觉语义字典,获取多源数据中特征信息的词汇表达向量。BoW模型起源于文档分析,利用文档集中单词和主题的聚类分布来构建语义字典[22]。应用于遥感领域,该模型将格网单元影像看作文档集,城市功能看作主题,单元格网中的各类特征看作单词。即任一格网单元可用城市功能的分布来表示,任意城市功能可用特征分布来表示。
BoW模型构建语义字典的流程如下。首先,对影像中第i个格网单元提取的多个特征
2.3 潜在语义特征挖掘
采用ETM来挖掘多特征词汇表征中隐藏的高层语义结构信息挖掘高层次潜在语义信息。在传统的主题模型中,每个主题在词汇表上是一个完整的分布,而 ETM 采用深度学习模型构建,将主题和单词共同构建向量空间,融合Hierarchical Softmax实现的词嵌入方法,为每个主题构建其在语义空间的分布表征,并采用Logistic-normal分布简化推断算法来提高运算效率[15]。
ETM推测主题的过程如下。首先,随机给每篇文档中的每个单词分配k个主题中的一个主题。其次,对于每篇文档D,重新分配单词的主题。接下来,假设除了当前文档之外的所有主题分配符合logistic-normal分布,计算两个概率:①当前文档D中的单词被分配到主题t的概率;②所有文档中被分配到主题t的单词中单词w的概率。然后,基于这两个概率的乘积和词向量与主题分布向量的关系分配给单词w一个新的主题。不断重复上述步骤,最终达到稳定状态,得到文档的主题分布。ETM主题模型将BoW字典中的特征合集进行挖掘,提取每个格网中多源特征的潜在语义特征,最终通过训练支持向量机(Support Vector Machine, SVM)分类器实现对各个格单元的功能识别。
3 研究区域和数据源
3.1 研究区域
宁波市位于中国东南沿海,浙江宁绍平原东端,东有舟山群岛为天然屏障,北邻杭州湾,西接绍兴市。宁波既是长江三角洲南翼经济中心和浙江省经济中心之一,经济社会发展水平高,第三产业发达,城市功能类型丰富,因而本文选取宁波作为研究城市。考虑到POI数据的有限性和分布情况,实验选取宁波市2个新旧商业中心作为代表性研究区域,如图2所示。研究区1包含镇海区万科广场及周边区域,面积约为15.3 km2。万科广场于2016年建成,是宁波市新兴发展起来的商业中心,是集购物、休闲和观光为一体的商业综合体。研究区2包含海曙区天一广场及周边区域,面积约13 km2,天一广场于2001年建成,是宁波最大的融休闲、商贸、旅游、餐饮、购物于一体的大型城市中心商业广场,拥有浓厚的商业文化特色。研究区1和2作为宁波市的新旧经济中心,高度集中了城市的商业、工业、居住和公共服务设施用地,区域内建筑分布密度高且外观相似,各类设施分布密集,POI数据丰富,适合作为本文的城市功能分区的实验区域。
图2
3.2 数据源
实验采用GF-2卫星的遥感影像作为高分辨率影像数据源。研究区1和2的遥感影像的获取时间分别为2019年6月16日和4月18日,数据来源于地理空间数据云平台(
POI数据来源于百度地图(
表1 各功能区的真实样本信息一览表
Table 1
类别 | A | B | G | M | R | W | S | 总计 |
---|---|---|---|---|---|---|---|---|
研究区1 | 230 | 421 | 255 | 169 | 439 | 8 | 42 | 1 564 |
研究区2 | 132 | 525 | 80 | 83 | 167 | 135 | 25 | 1 147 |
3.3 预处理
为达到更好的识别效果,在提取影像多特征之前,对GF-2影像进行正射校正、辐射定标、图像融合、大气校正等预处理,得到1 m分辨率的高分辨率多光谱影像数据。在此基础上,根据研究区域范围对预处理后的影像进行裁剪,并采用100 m×100 m格网单元来分割研究区并提取多特征信息。
POI数据虽然蕴含了能反映建筑物内部社会经济属性的语义信息,但并非所有POI数据都能辅助识别城市功能区,甚至可能造成干扰,如公厕、报刊亭、交通站点等,需要从原属数据中剔除。本文从以下几个步骤对POI数据进行预处理,首先对POI数据进行了筛选,排除无详细类别标识的数据和无详细坐标信息的数据。其次对POI类型按照所需类别进行重分类。最后将POI数据从百度坐标系纠偏为与遥感影像一致的WGS84坐标系。
4 实验与分析
设计了3类实验来综合验证提出的方法的性能和效果。实验4.1证明了该方法用于城市功能分区上的可行性。实验4.2剖析不同的特征组合对本文的ETM模型来挖掘高层次语义特征和识别城市功能区的性能影响;实验4.3比较了3种主流语义模型与本文ETM模型的识别效果。
4.1 融合多特征的城市功能识别实验
表2 研究区1的分类混淆矩阵
Table 2
类别 | A | B | G | M | R | W | S | 总计 |
---|---|---|---|---|---|---|---|---|
总计 | 195 | 476 | 273 | 162 | 405 | 7 | 46 | 1 564 |
A | 144 | 2 | 2 | 8 | 32 | 0 | 1 | 189 |
B | 11 | 450 | 4 | 4 | 19 | 0 | 2 | 490 |
G | 9 | 5 | 243 | 2 | 21 | 0 | 2 | 282 |
M | 2 | 7 | 3 | 144 | 5 | 0 | 3 | 164 |
R | 27 | 6 | 20 | 4 | 323 | 0 | 9 | 389 |
W | 0 | 0 | 1 | 0 | 0 | 7 | 0 | 8 |
S | 2 | 6 | 0 | 0 | 5 | 0 | 29 | 42 |
表3 研究区2的分类混淆矩阵
Table 3
类别 | A | B | G | M | R | W | S | 总计 |
---|---|---|---|---|---|---|---|---|
总计 | 125 | 568 | 64 | 92 | 149 | 134 | 15 | 1 147 |
A | 89 | 13 | 2 | 5 | 4 | 1 | 2 | 116 |
B | 17 | 501 | 3 | 2 | 19 | 0 | 1 | 543 |
G | 3 | 13 | 55 | 0 | 1 | 1 | 0 | 73 |
M | 7 | 5 | 1 | 82 | 4 | 0 | 1 | 100 |
R | 6 | 29 | 3 | 2 | 117 | 1 | 2 | 160 |
W | 0 | 3 | 0 | 0 | 1 | 131 | 0 | 135 |
S | 3 | 4 | 0 | 1 | 3 | 0 | 9 | 20 |
两片研究区分别有1 340和984格网功能属性定义符合,识别结果精度分别达85.67%和85.78%。公共管理与公共服务用地识别精度较低,主要因为该功能区中包含的服务型POI数量与类型较少,且其外部物理特征存在多样性。商业服务业设施用地识别精度较高,主要原因是商业类型POI在空间中密集分布凸显了POI特征。居住用地识别效果相对较差,部分原因是居住用地中包含一些商业类型POI导致住宅类型POI所占比例较低,影响了识别效果。工业用地具有较高的识别精度,因为其带有鲜明的纹理和几何特征明显如蓝色屋顶和高大的烟囱。水域拥有较高识别精度是因为物理特征上的连续性以及光谱特征的独特性。道路识别精度相对较低,主要因为道路和建筑物顶部相似的物理性质,并且缺乏社交媒体数据辅助。
4.2 不同特征的融合性能分析实验
采用实验来验证高分辨率遥感影像和POI数据中不同特征对高层次语义特征挖掘和功能区识别的影响。实验中融合不同的特征组合,并利用ETM模型来挖掘高层次语义特征信息,并实现城市功能区识别的精度评价。采用的多特征包括POI特征“POI”,光谱特征“Spe”,光谱和纹理特征组合“Spe+Tex”,光谱、纹理和几何特征组合“Spe+Tex+SURF”和“Spe+Tex+SURF+ GIST”,光谱、纹理、几何和POI特征组合“Spe+Tex+SURF+GIST+POI”。
为了验证每种特征对城市功能区识别是否有正向作用,使用不同的特征组合方式分别进行实验,并取10次的平均结果。实验中模型参数主题个数和聚类中心数分别设置为250和600。表4为使用ETM主题模型时不同的特征组合方法得到的功能区识别精度。与单独使用一类特征相比,融合多个特征进行分类能取得更好的结果。实验主要是对城市中建筑物功能类型进行分类,当仅使用光谱、纹理或几何特征时无法有效地挖掘建筑物内部功能属性,其分类精度结果较低。再加入POI特征后,两个研究区域的总体准确率分别提高了8.97%和8.88%。这表明融合多源数据的多特征信息可以大幅提高城市功能区识别的准确度。
表4 ETM模型中不同特征组合得到的分类精度对比 (%)
Table 4
研究区 | Spe | POI | Spe+Tex | Spe+Tex+SURF | Spe+Tex+SURF+GIST | 本文方法 | |
---|---|---|---|---|---|---|---|
1 | OA | 37.02 | 62.86 | 44.70 | 64.76 | 76.70 | 85.67 |
Kappa | 24.66 | 53.94 | 32.39 | 55.79 | 69.75 | 81.68 | |
2 | OA | 39.26 | 67.13 | 49.78 | 66.96 | 76.90 | 85.78 |
Kappa | 26.72 | 58.04 | 38.31 | 57.38 | 70.24 | 80.03 |
图3
图3
研究区1不同特征组合的识别结果图
Fig.3
Recognition results of different feature combinations in study area 1
图4
图4
研究区2不同特征组合的识别结果图
Fig.4
Recognition results of different feature combinations in study area 2
4.3 ETM的语义特征挖掘性能分析实验
表5 4种语义模型用于识别研究区1中城市功能区的精度对比 (%)
Table 5
语义模型 | A | B | G | M | R | W | S | OA | Kappa |
---|---|---|---|---|---|---|---|---|---|
pLSA | 60.00 | 85.99 | 80.00 | 81.07 | 67.43 | 62.50 | 45.24 | 78.32 | 71.46 |
LDA | 61.74 | 89.55 | 82.35 | 82.84 | 71.07 | 75.00 | 57.14 | 81.2 | 74.68 |
STM | 65.22 | 90.74 | 92.94 | 82.25 | 72.21 | 75.00 | 64.29 | 82.74 | 76.73 |
ETM | 62.61 | 93.11 | 95.29 | 85.21 | 73.58 | 87.50 | 69.05 | 85.67 | 81.68 |
表6 4种语义模型用于识别研究区2中城市功能区的精度对比 (%)
Table 6
语义模型 | A | B | G | M | R | W | S | OA | Kappa |
---|---|---|---|---|---|---|---|---|---|
pLSA | 59.85 | 89.14 | 61.25 | 89.16 | 63.47 | 90.37 | 28 | 80.47 | 72.19 |
LDA | 62.88 | 90.67 | 62.5 | 86.75 | 67.07 | 95.56 | 28 | 80.99 | 73.53 |
STM | 70.45 | 92.19 | 66.25 | 90.36 | 68.26 | 92.59 | 32 | 82.91 | 77.86 |
ETM | 67.42 | 95.43 | 68.75 | 98.8 | 70.06 | 97.04 | 36 | 85.78 | 80.03 |
而ETM模型在识别各类功能区时精度都较高,因为其良好的概率分布结构和词嵌入特性,在处理大型词汇表时鲁棒性强。
5 结 语
基于ETM模型,提出了一种融合遥感影像和POI数据中多特征的潜在语义信息来识别城市功能区的方法,并采用宁波市2个典型的研究区来设计实验并进行方法验证。研究结果表明,该方法能够取得良好的城市功能区识别效果。同时,“光谱+纹理+局部几何+全局几何+POI”的多特征组合信息,明显优于传统的POI信息和其他多特征组合,更利于城市功能区识别。此外,ETM模型相较于pLSA、LDA和STM的语义挖掘性能更加优良,能够确保城市功能区的准确识别。然而此方法未考虑影像分割的最优尺度,各类型POI的最优权重,以及城市建筑的复杂或混合功能属性。下一步研究中可采用影像分割或者超像素作为分类单元,结合深度学习算法,探索多源社交媒体数据,并细致考虑混合功能区类型,进一步提升城市功能区的识别准确性。
参考文献
Development Status and Literature Analysis of China’s Earth Observation Remote Sensing Satellites
[J]. ,
中国地球观测遥感卫星发展现状及文献分析
[J].,
Application of High Spatial Resolution Remote Sensing Image in Urban LUCC
[J]. ,
高分辨率遥感影像在城市LUCC中的应用
[J].,
Application of High-Spatial IKNOS Remote Sensing Images in Land Use Classification and Change Monitoring
[J]. ,
高分辨率遥感卫星影像在土地利用分类及其变化监测的应用研究
[J].,
Multiscale Geoscene Segmentation for Extracting Urban Functional Zones from VHR Satellite Images
[J]. ,
Features, Color Spaces, and Boosting: New Insights on Semantic Classification of Remote Sensing Images
[J]. ,
Scene Classification based on the Multifeature Fusion Probabilistic Topic Model for High Spatial Resolution Remote Sensing Imagery
[J]. ,
Classifying Urban Land Use by Integrating Remote Sensing and Social Media Data
[J]. ,
Identification of Urban Regions’ Functions in Chengdu, China, based on Vehicle Trajectory Data
[J]. ,
Portraying the Spatial Dynamics of Urban Vibrancy Using Multisource Urban Big Data
[J]. ,
Portraying Urban Functional Zones by Coupling Remote Sensing Imagery and Human Sensing Data
[J].,
Fine-grained Land Use Classification at the City Scale Using Ground-level Images
[J]. ,
Sensing Spatial Distribution of Urban Land Use by Integrating Points-of-interest and Google Word2vec Model
[J]. ,
Fully Sparse Topic Models
[C]∥
Heuristic Sample Learning for Complex Urban Scenes: Application to Urban Functional-zone Mapping with VHR Images and POI Data
[J]. ,
Topic Modeling in Embedding Spaces
[J]. ArXiv:1907.
Landsat Time-series Land Cover Mapping with Spectral Signature Extension Method
[J]. ,
光谱特征扩展的时间序列Landsat数据地表覆盖分类
[J].,
Technologies of Extracting Land Utilization Information based on SVM Method with Multi-window Texture
[J]. ,
张伐伐,李卫忠,卢柳叶,
Local Derivative Pattern Versus Local Binary Pattern: Face Recognition with High-order Local Pattern Descriptor
[J].,
Speeded-up Robust Features (SURF)
[J]. ,
Modeling the Shape of the Scene: A Holistic Representation of the Spatial Envelope
[J]. ,
Mining Point-of-interest Data from Social Networks for Urban Land Use Classification and Disaggregation
[J]. , Environment and Urban Systems,
Visual Categorization with Bags of Keypoints
[C]∥
Urban Land Use Mapping by Combining Remote Sensing Imagery and Mobile Phone Positioning Data
[J]. ,
Scene Classification Via pLSA
[C]∥
Latent Dirichlet Allocation
[J]. ,
/
〈 | 〉 |