遥感技术与应用, 2023, 38(3): 649-661 doi: 10.11873/j.issn.1004-0323.2023.3.0649

地理信息与遥感大数据

基于主题模型的城市地块活动语义动态提取

肖锐,1,2, 郭宇翔2, 李星华,2

1.自然资源部华南热带亚热带自然资源监测重点实验室,广东 广州 510663

2.武汉大学 遥感信息工程学院,湖北 武汉 430079

Dynamic Semantic Extraction of Urban Blocks Activity based on Topic Model

XIAO Rui,1,2, GUO Yuxiang2, LI Xinghua,2

1.Key Laboratory of Natural Resources Monitoring in Tropical and Subtropical Area of South China,Ministry of Natural Resources,Guangzhou 510663,China

2.School of Remote Sensing and Information Engineering,Wuhan University,Wuhan 430079,China

通讯作者: 李星华(1988-),男,四川安岳人,副教授,主要从事多时相遥感方面的研究。E⁃mail: lixinghua5540@whu.edu.cn

收稿日期: 2022-02-23   修回日期: 2023-04-10  

基金资助: 自然资源部华南热带亚热带自然资源监测重点实验室开放基金课题.  2023NRMK04
湖北省自然科学基金.  2021CFB402

Received: 2022-02-23   Revised: 2023-04-10  

作者简介 About authors

肖锐(1983-),男,湖北武汉人,副教授,主要从事城市遥感监测方面的研究E⁃mail:rxiao@whu.edu.cn , E-mail:rxiao@whu.edu.cn

摘要

随着城市区域的职能日趋复杂化,科学准确地识别城市土地的具体功能类型对于科学城市规划、实现可持续发展具有关键意义。提出了一种时序动态的城市功能区识别方案,以北京市六环内区域作为研究区,利用出租车轨迹数据,采用动态主题模型从海量出行数据中提取出行模式高发区域,并基于主题模型对城市地块进行聚类,使用POI语义标注聚类结果识别出城市功能区。研究评价了6 a内主题地块分布的变化趋势,探讨了地块活动语义的动态变化情况,结果表明:①动态主题分布具有空间扩散性,地块语义强度分布呈现明显圈层扩张性。②基于出行活动的聚类簇空间边界随时间逐渐与研究区区级行政区划吻合,功能标注结果与区域的具体职能匹配程度较高。③主题变化度高值主要分布在外环区域,且与地块建设用地占比呈负相关关系。该研究表明动态主题模型在出行数据挖掘场景下具有适用性,为时序数据挖掘的应用提供了新的方案参考。

关键词: 移动数据挖掘 ; POI大数据 ; 动态主题模型 ; 城市功能区识别

Abstract

As the functions of urban areas become more and more complicated, it is of great significance to identify the specific function types of urban blocks scientifically and accurately. This paper presents a time-series dynamic urban functional area recognition scheme. Taking the area within the Sixth Ring Road of Beijing as the research area, the high incidence area of travel mode is extracted from the massive travel data by using taxi trajectory data and Dynamic Topic Model (DTM). Urban blocks are clustered based on topic model feature. The research use POI semantic annotation clustering results to identify urban functional areas. This paper studies and evaluates the change trend and distribution of topic blocks during six years, and discusses the dynamic changes of semantics of blocks: (1) The dynamic topics distribution has spatial diffusion, and the distribution of block semantic intensity shows obvious circle expansion. (2) The spatial boundary of clusters based on travel activities gradually coincides with the administrative divisions of the study area over time, and the function labeling results are highly matched with the specific functions of the area. (3) The high value of topic variation value is mainly distributed in the outer ring area, and has a negative correlation with the proportion of construction land. This research shows that the dynamic topic model is applicable in the travel data mining scenario, providing a new reference direction for the application of dynamic topic model in the field of mobile data mining.

Keywords: Travel pattern mining ; POI ; Dynamic topic model ; Identification of urban functional areas

PDF (7481KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

肖锐, 郭宇翔, 李星华. 基于主题模型的城市地块活动语义动态提取. 遥感技术与应用[J], 2023, 38(3): 649-661 doi:10.11873/j.issn.1004-0323.2023.3.0649

XIAO Rui, GUO Yuxiang, LI Xinghua. Dynamic Semantic Extraction of Urban Blocks Activity based on Topic Model. Remote Sensing Technology and Application[J], 2023, 38(3): 649-661 doi:10.11873/j.issn.1004-0323.2023.3.0649

1 引 言

土地是国家最重要的自然资源,土地利用分析对于认识和理解土地的情况有着重要的意义。城市化与现代化发展使得城市的不同区域被赋予了不同职能,诸如居民区,商业区,科教文化区。这种划分支持了人们不同的城市生活需求,并且作为一种规划准则帮助人们更好地了解城市职能。城市规模的扩大让城市地块的功能更加多元化复杂化,利用多源数据对城市区域进行划分与功能语义标注成为热点问题。

城市化和现代文明的发展过程导致城市内部不同功能区域的形成,挖掘城市地块的功能语义有助于城市规划。土地覆盖测量是土地利用的基础环节1,传统的土地覆盖识别研究采用基于遥感影像数据的聚类方法2-3。基于遥感影像的方法存在一定的局限性。随着近年来移动数据成为数据挖掘新的来源,GPS及传感器技术逐渐普及4,可以获取大规模的、高质量的个体时空数据。车辆轨迹数据5成为了城市出行信息挖掘的重要基础数据。此外,兴趣点(Point of Interest,POI)包含人类活动的语义信息,是城市功能标注的重要数据来源6。遥感影像的数据源不能随时间高密度地动态生成,数据质量也受到气候条件的限制。移动数据逐渐成为了地块语义挖掘的新数据来源。交通数据的数据源主要包括移动通信的基站数据7、移动终端的GPS数据8。Soto借助手机通信数据区发掘城市地块功能,自动更新土地覆盖9。出租车轨迹数据蕴含了居民活动信息,利用支持向量机监督算法和粒子群优化方法能够实现城市用地类型的辨识10

自然语言处理领域是数据挖掘空间向量模型11被广泛应用于成熟的商业搜索引擎中。词频-逆向文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)指数统计法12是经典的文本挖掘算法,该方法是一种统计语言模型,文本词频与词的逆向文本频率经横向比对后筛选出每个文本中较为重要的词汇,达到提取主题的效果。后续提出的主题模型建立在概率统计的数学基础之上的文本概率模型,主题模型沿用了数据降维的核心思想。Blei提出的潜在迪利克雷分布13(Latent Dirichlet Allocation,LDA)的主题模型是一个层次贝叶斯的生成概率模型,它的基本思想是文档是由潜在主题的随机混合表示,每个潜在主题以词语的概率分布表示。基于LDA有很多衍生的实用主题模型,Blei提出的动态主题模型(Dynamic Topic Model,DTM)考虑了模型语料的时间区块14,Wang等15提出的时序主题模型(Topic over Time,TOT)将时间戳属性作为文档信息添加到主题模型中; Mimno等16提出迪利克雷多项式回归在LDA模型基础上添加了先验数据,使得实验结果更加贴近现实情境。主题模型在情感分析中的应用是新兴的研究方向17,能够从文本中挖掘出作者的态度;作者主题模型被应用于学术文章的挖掘18,对于学术主题发展趋势预测实证有效。

文本挖掘领域主题模型的发展为城市研究提供了新的思路19,这种方法在城市研究中的应用效果卓著。社交包含地名信息的文本蕴含待挖掘的用户个人时空行为信息20。Zheng等21提出的城市地块功能提取方法将狄利克雷多项式回归(Dirichlet-multinomial Regression,DMR)主题模型运用到城市功能提取中,取得了比LDA以及TF-IDF方法更优的识别精度。陈世莉等22基于DMR模型对广州市城区进行了功能提取并实地调研。基于出租车数据对交通数据进行划分对动态划分利用了OD数据的高时效性特点23。主题模型对于交通流类数据24的数据挖掘案例中具有适用性。然而,现有基于主题模型的研究未充分探索交通流数据中时间维度,受限于静态模型的数据分析,对长时间跨度序列出行模式分布的动态演化机制的分析与挖掘较少。DTM可以基于时间戳对文档进行切分,生成多个时序的主题模型。每个时段对应的主题模型以上时刻的主题作为先验数据,在当前时段文本中迭代变化。关注主题变化可以满足对于出行数据时序语义变化挖掘的需求。

本研究基于北京市不同年份的出租车出行活动轨迹,将轨迹数据转化为特定的出行模式文本,运用主题模型方法对交通大数据进行挖掘,并结合聚类算法与POI数据对城市地块功能语义进行动态标注,进一步进行分析及可视化,分析城市地块功能的动态语义变化。DTM提供了一种时序动态的城市功能区语义判别解决方案,本研究为动态主题模型在移动数据挖掘领域的应用提供了新的参考方向。

2 研究区与数据

2.1 研究区

选取北京市作为案例地点,北京市位于39°26’~41°03’ N,115°25’~117°30’ E地处华北平原西北部,全市总土地面积16 410.54 km2。北京市是我国政治文化中心,是中国规模最大的城市之一,经济体量与发展速度水平较高。城市高速发展伴随了城市交通模式的变化与城市空间结构的更迭。出租车业务规模较大,出租车作为城市公共交通的组成部分的运作模式已经相当成熟。因此,基于出租车轨迹数据进行北京通勤人群出行模式的挖掘是值得探究的。

图1

图1   研究区2017年土地覆盖与及POI分布图

审图号:GS(2020)4619

Fig.1   2017 Land cover of study area and POI data distribution


2.2 数据来源与预处理

本文所用数据源是北京市2012~2017年的出行轨迹数据。首先按照路网数据将北京市六环内区域划分为1 371个地块单元,以地块编号为标识,提取出此6 a间出行数据的起讫点数据,建立起讫点数据库。路网数据从开源地理信息网站(Open Street Map,OSM)获取。从6个年份各提取非节假日的单周数据作为主题模型训练所使用的数据源,42个单日数据共计包含8 420 662条浮动车轨迹记录。基于Sentinel与Landsat遥感影像,使用监督分类与目视判读方法解译得到北京市六环区域内土地覆盖数据。通过PostGIS空间扩展功能将轨迹数据转化为以地块单元编号为标识的起讫点出行记录,每个单日构建一张数据表存储该单日的出行记录,构建6年数据共计42个单日的出行数据,每个单日包含150 000~350 000条记录。兴趣点(Points of Interest,POI)是电子地图与导航类软件依赖的基本数据类型,本文使用爬虫程序从互联网电子地图获取北京市区内POI。剔除与出行模式相关度不高的偏类别与未分类POI。借助遥感影像,结合土地覆盖数据对POI进行清洗以及手动修正,最终经过归并整理最终划分为14类数据,具体分类标准如表2所示。

表1   研究数据说明

Table 1  Data specification

数据数量描述
POI数据633 440选取研究区范围内所有兴趣点共计14类
出租车轨迹数据8 420 662包含2012~2017共6个年份共计42个单日的出租车GPS轨迹数据,经过数据清洗转换为OD点数据,进一步生成出行文档
土地覆盖数据基于Landsat地表反射率数据、Sentinel-1SAR数据解译得到
北京市行政区划矢量数据研究区域包含北京市东城区、西城区、海淀区、朝阳区、丰台区、顺义区、石景山区、通州区、昌平区、门头沟区、房山区与大兴区
道路网络数据2 301选取快速路、国道、省道、高速公路、城市主干道及城市次主干道的道路功能等级为道路分割对象

新窗口打开| 下载CSV


表2   兴趣点类别与分类描述

Table 2  POI category and classification description

兴趣点类别次级分类兴趣点类别次级分类
餐饮中餐厅、休闲餐饮场所、外国餐厅、快餐厅、咖啡厅、糕饼店、茶艺馆、冷饮店科教文化学校、科研机构、传媒机构、培训机构、美术馆、博物馆、图书馆、科教文化场所、会展中心
风景名胜风景名胜、博物馆、公园广场商务住宅商务住宅、产业园区、楼宇、住宅区
公共设施公共厕所、物流设施、通行设施、公用电话生活服务邮局、生活服务场所、旅行社、信息咨询中心、物流速递
公司企业知名企业、工厂农林牧渔基地、公司体育休闲运动场馆、高尔夫相关、娱乐场所、度假疗养场所、休闲场所、影剧院
购物便利店、超级市场、商场、家居建材市场、文化用品店、综合市场、特色商业街医疗保健综合医院、专科医院、诊所、医药保健销售店、疾病预防机构、急救中心、急救中心、动物医疗场所
交通服务长途汽车站、停车场、公交车站、地铁站、机场政府机构政府社会团体、政府机关、外国机构、社会团体、公检法机构、交通车辆管理、工商税务机构
金融保险自动提款机、证券公司、银行、金融保险服务机构、保险公司住宿服务宾馆酒店、旅馆招待所、住宿服务相关

新窗口打开| 下载CSV


3 研究方法

研究方法主要包括数据预处理、模型对比实验以及出行模式挖掘与语义标注。首先建立出行数据库,构建出行文档语料库。探索LDA与DTM主题模型在不同主题数目下的主题一致度变化情况,通过对比实验探索得到最佳主题数以及最佳模型。观察主题地块及所有地块主题强度的时空变化情况。接着通过聚类算法对地块进行聚类,基于POI数据与对不同聚类簇进行语义标注。以量化指标评价地块动态变化程度,观察稳定区域与易变区域的空间分布,分析主题模型视角下的城市出行模式时空变化特征,具体研究思路见图2

图2

图2   基于主题模型的城市地块活动语义动态提取技术路线

Fig.2   Technical route of dynamic semantic extraction of urban blocks activity based on topic model


3.1 出行模式构建

一个移动模式可以定义为包含起点、终点、出发时间、到达时间的四元组,移动模式可以分解为离开移动模式和到达移动模式两类出行模式。全部数据可以以转移立方的形式进行建模。转移立方是一个Z×Z×T的立方体,其中Z是区块的数目,T 为时间区间的数目,本文研究时间区间的单位为日。式(3)表示基于转移立方可以索引到在tk时间从zi 离开去往zj记录条数。

CA(i,j,k)={MA=(x,y,z)|x=ri,y=rj,z=tk}

通过上述构建的转移立方,对于指定地块zi某一单日的出行文本,由式(2)的中对应时间区间可以导出从所有地块到达或离开当前地块的次数的元组,根据次数在文档中写入指定次数的该地块编号,按照此种方式生成所有单日所有地块的转移文档,作为进行主题模型构建的语料库。

C=(1:Z,i,1:T)

图3

图3   转移立方示意图

Fig.3   Schematic diagram of transfer cube


3.2 主题模型构建

主题模型首先假定一个文档的集合中可以抽取出隐含的主题集合,在主题模型中,每一篇文档被认为是隐含主题的概率混合。LDA是一种三层的贝叶斯主题模型。Blei提出的动态主题模型考虑了模型语料的时间区块,生成具有序列性的主题分布。DTM主题模型的概率图如图4所示。其中每个节点表示一个随机变量,白色表示隐藏变量,灰色表示观测变量,其中N是字典的单词数,整个语料库含有K个主题,DTM对LDA在时间序列上进行了扩展,将主题的高斯分布进行了服从马尔可夫假设的链接,在模型迭代过程中相邻的β分布联动,使提取出的主题有较强的相关性。便于挖掘主题在时序文本中的变化。

图4

图4   动态主题模型示意图

审图号:GS(2020)4619号

Fig.4   Dynamic topic model


本实验使用LDA与DTM两类主题模型,就两种主题模型分别进行了10主题、15主题及20主题的实验。实验在Python环境下进行,包括语料的预处理,模型训练、模型检验过程。主题一致度指标来评价所提取主题的优劣性25。通过计算主题在内部语料库的一致性得分,进而设置主题数目,确定最终的实验模型。具体计算方法如式(3)所示,其中wi,wj表示任意两词汇,D(wi,wj)表示出现了上述两个词汇的文档数量。

score(wi,wj)=logD(wi,wj)+1D(wi)

根据图5结果,在DTM模型与LDA模型提取出的主题一致性指标可以看出,DTM主题一致度得分明显高于LDA模型。并且两种模型在主题为20的情况下的一致性指标会有急剧下降。根据经验认为在后续实验中应选择10主题或者15主题作为地块语义挖掘的指标提取模型合适的主题数。经预实验观察得15主题模型中若干主题特征分布趋同,因此选取10主题DTM作为研究模型。DTM包含10个向量形式的主题,向量的特征值为地块的主题强度指标。

图5

图5   各模型主题一致度

Fig.5   Coherence of different topic models


3.3 城市功能区聚类街区功能区语义标注

基于上一步实验DTM主题模型能够从OD出行数据中提取出比较稳定的主题,本研究建立了基于10主题下的DTM模型。以这些主题作为指标,对每个地块单元抽取出10维的特征向量,使用K-means聚类算法与求取向量最大值维度方法对于地块进行聚类,将城市地块划分为不同的功能区。本研究使用POI对城市区块进行功能语义标注。首先基于POI数据进行核密度估计(Kernel Density Estimation,KDE),计算得到14类POI指标的功能强度的连续空间分布。再以城市地块作为单元进行空间统计,得到主题模型视角下的城市地块功能变化强度。KDE通过核函数估计位置s的强度的公式为:

λ(s)=i=1n1nr2K(di,sr)

其中:di,s为POIs与当前点s的距离;r为核密度函数的带宽。带宽基于均平方积分误差函数(Mean Intergrated Squared Error,MISE)准则确定。选取的高斯核函数为:

K(di,sr)=12πexp(-di,s22r2)

为了评价地块聚类结果的异变情况,考虑设计一种主题变化度度量(topic variation,tv)指标用于反映地块的语义变化情况,其定义如下:

tv=i=110pij=20122016|ti,j-ti,j+1|

其中:代表某一个主题的一致性指标,主题建模步骤中计算出每个主题的一致性指标之后,使用最大值最小值方法将其进行标准化;pi 指该时间区间该主题的权重值。

4 结果与讨论

4.1 主题时空分布规律

基于DTM的特性,6个时间区间内10个主题权重分布较为稳定,故将6 a内符合变化程度要求的主题视为一个主题。主题地块主要分布于东城、西城、海淀、朝阳、丰台等内环区域,另有3个主题分别分布于昌平、通州、大兴3个外环区。由于机场具有特殊性,2号、3号、4号3个主题包含机场地块,机场地块远离该主题其他地块,以“飞地”的形式存在。基于将6个时间区间整体训练的方法,DTM能够维持每个时间区间的主题一致性,进而量化权重分析时能够保证主题指标的稳定性。

4.1.1 主题时空分布

根据数据分析结果,认为在建模提取的出行文档文本主题为研究区的出行模式,即每个地块所提取的主题中主要是来自于以上10个主题分布的组合。在图6内将这些主题在地图上标出。主题块分布代表着北京市出行数据主要的出发点分布情况。如图6所示,主题模型所提取的主题地块具有空间聚集性,呈现核心地块权重高,随着地块向外延伸,权重逐渐下降,呈现出渐变的分布特征。由于机场存在的特殊性,主题2、3、4块的1041号主题地块都呈现比较高的主题权重。本研究进一步探究主题重心漂移的特征。以每个主题内地块的主题强度作为权重,计算每个主题的地理质心。如图7结果显示:10个主题中,6个质心出现明显远离城市中心的趋势,2个主题呈现先远离后靠近地理中心的趋势;余下2个主题的质心漂移并未明显改变到地理重心距离,其中主题1分布在研究区地理中心区域。整体而言研究区内主题分布出现离心扩散的趋势。

图6

图6   主题空间分布

Fig.6   Spatial distribution of urban blocks which of topics


图7

图7   主题质心转移情况

Fig.7   Centroid transfer trajectory of topics


4.1.2 主题圈层分布

对于每个地块,主题词强度表征区域内出行强度。本文将所有主题所包含的地块视为出行模式高频的区域集合。考虑到北京市城市化扩张与规划设计的圈层效应明显,本文尝试以交通环线为边界,以圈层形式将研究区划分为6个子区域,分别标记为R1~R6。以年份为单元划分模型。根据图8结果显示,R1与R2区域主题强度整体分布变化不大,R1中位值逐年降低而R2中位值逐年升高。R3区域主题强度逐渐增加,且样本标准差逐渐降低。R4与R5区域整体保持平稳,R4主题强度高异常值于2017年消失,在2016年R5出现第二个高异常值。R6区域主题词强度逐渐增加,且样本分布逐渐离散。R6初期仅有集中的少量高值分布,2015年后出现部分低值主题,后逐年增高,最终主题强度均分布在高值区域附近。数据结果表征R5、R6外环区域主题变化度逐步增加,R6主题强度明显升高。R1~R4等内环区域主题变化相比于外环区域不明显,整体呈现小幅度降低的趋势。研究区内主题分布呈现圈层扩散的趋势,且外环出现了更多的主题词强度高值的分布。

图8

图8   主题强度圈层分布

(区域后数字代表环线值,如R2代表二环线与一环线之间区域)

Fig.8   The circular distribution of topic intensity


4.2 城市功能区动态语义标注

DTM本身不具备分类能力,因此我们将每个地块单元对应的主题分布作为特征值。以此特征值使用K均值算法对地块进行聚类,得到10类不同的聚类簇。由于主题分布随时间发生变化,每个年份对应不同的聚类结果。如图9所示,城市功能区分类具有时序动态性。类0、1、3、5,6等4类轮廓明确且各年份聚类结果保持稳定。位于东南侧的类2、类7在前3个年份类别归属不明确,于2015年后逐渐趋于稳定,类簇轮廓逐渐分明。类4、8、9共3个区域在2012~2015共4个年份类别归属频繁变动,研究区西南部类别破碎,于2016年后类别逐渐呈现空间聚集性,类簇呈现出明显的轮廓。

图9

图9   主题向量聚类结果

Fig. 9   Clustering results based on topic density vectors


基于主题模型得到的聚类结果,以往研究使用POI语义注释每个区域集群帮助理解其实际功能26。本文采用核密度估计方法将离散POI点要素转化为空间连续的栅格数据,得到像素级的POI功能强度。计算每一类功能区所有地块内功能强度均值,得到各类功能区基于POI的功能分布,如表2所示。类1、2、5、6以科教文化、行政机构、住宅、餐饮与医疗等功能语义为主,以上区域功能特征分布类似,而基于主题特征的聚类将其划分为不同区类簇,地理上对应海淀、朝阳、石景山与东城区。这些区域是北京市的中心城区27,是教育资源与医疗资源集中的核心区域。类8功能分布与上述四个地块类似,而交通服务功能强度非常突出,区域内包含大型交通枢纽,地理上对应丰台区,北京西站为该区所辖。类0金融类、政府机构类功能强度值明显高于其他类,地理上对西城区、海淀区部分,是首都行政职能的集中区域。类4、类7,类9以购物类功能强度内部排序第一,餐饮类、生活服务类功能强度排序高、交通服务类功能强度值明显低于其他类,该地块对应于远城区,分析此类区域人口密度较低。

虽然北京市公共设施分布具有高度的空间聚集性28,区域内具备相当规模的商圈与生活配套公共设施,是未来容纳城市人口的主力区域。地理上对应顺义区、与通州区大兴区。类3住宅类功能区内部排序第一,功能强度高于其他类,居住地功能性质突出,地理上对应通州、朝阳、大兴的交接地带。聚类簇整体上呈现空间聚集性,聚类边缘逐渐明确,至2017轮廓类别轮廓与北京市行政边界达到较高吻合程度。

表3   全时间POI密度及功能区内部排序

Table 3  Full-time POI density and internal order of functional area

聚类序号0123456789
餐饮功能强度0.160.0810.1460.1280.0650.0640.120.0550.0680.061
内部排序6425464352
公共设施功能强度0.100.0290.0680.1160.0260.0440.0950.0220.0550.026
内部排序12121281211811811
公司企业功能强度0.0950.0490.0770.0460.0260.0270.0640.0210.0370.021
内部排序13101112111212121212
购物功能强度0.1330.0790.1290.1410.0680.0770.1030.0640.0750.066
内部排序8654157141
交通服务功能强度0.290.0940.1440.1570.0650.0850.160.050.1080.049
内部排序3232333616
金融保险功能强度0.1080.0230.060.0350.0140.0220.0470.0140.0240.012
内部排序10131313131313131313
科教文化功能强度0.190.0820.0950.0660.0450.0530.0880.030.0430.029
内部排序4310118910101110
风景名胜功能强度0.0440.0120.0130.0260.0060.0130.0350.0050.010.004
内部排序14141414141414141414
商务住宅功能强度0.3290.1170.1710.1570.0650.1010.1630.0640.1040.048
内部排序2113211227
生活服务功能强度0.1010.0480.0990.0860.0410.0520.0680.0390.0490.041
内部排序111199910118108
体育休闲功能强度0.1170.0580.1060.0790.0470.0530.0890.0340.0490.033
内部排序99810789999
医疗保健功能强度0.1790.0750.1180.1250.0510.0830.1160.0550.0660.054
内部排序5876645464
政府机构功能强度0.3350.080.1220.1570.0380.1010.1620.0440.1010.051
内部排序15611022735
住宿服务功能强度0.1530.0780.1410.1240.0620.0610.1150.0540.0660.059
内部排序7747576573

新窗口打开| 下载CSV


4.3 主题变化度分布规律

研究使用10主题的DTM提取出6个时间区间内的主题,以10个主题作为特征对城市地块进行聚类统计,量化指标评价每一个地块的稳定程度。采用式(4)的主题变化度计算方法统计城市功能强度整体变化情况。由图10看出,主题变化度的分布呈现出长尾分布的特征,最大值为8.3,大部分地块的主题变化度在4.0以下。将主题变化度基于自然间断法分为10个不同等级,结合地图可视化分析时序活动语义稳定地块以及时序语义易变地块的空间分布状况。靠近市中心区域的大部分变化值很小,而主题变化值较高的地块分布在五环路与六环路之间。感官上判断由于市中心区域发展程度较高,出行数据提取出的主题比较稳定,这部分区域的出行主题聚类结果比较稳定。易变的地块分布于五环路外郊区。结合基于遥感影像解译的土地覆盖数据分析,以建设用地为主的区域主题变化度更低,主题变化度的高值出现在以林地、耕地为主的外环区域。

图10

图10   主题变化度分布情况

Fig. 10   Distribution of topic variation density


在五环与六环之间的区域多属于城郊,具有较大的发展空间,在进行城市化过程中这一部分的出行数据会发生比较大的浮动,而更为发达的城市内环区域地块活动语义的动态变化并不丰富,这种结果的呈现符合我们对于城市发展的感官预期。基于土地覆盖数据,统计每个地块内建设用地所占比例,探究发现建设用地占比与主题变化度之间呈现负相关性(如图11所示)。根据实验得出初步结论,地块活动语义的变化程度与地块的建成程度相关,高度建设的地区地块活动语义在时序上表现更加稳定,而尚未开发的区域活动语义变化幅度更大。

图11

图11   建设用地占比与主题变化度相关性

Fig. 11   Correlation between the proportion of construction land and topic variation


5 讨 论

研究提出的城市地块功能语义提取方案弥补了传统功能区识别过程中对于时序维度探索的不足,本研究验证了DTM在时序主题模型在出行模式挖掘的适用性,并使用POI赋予城市地块功能语义,该方案较准确地识别出不同地块的功能,同时有效提取出城市地块活动语义的动态变化特征,识别结果使居民更好地理解北京市中心城区的城市功能发展状况,为城市管理者对于城市规划、协调管理提供参考。在方法上,丰富了过去以图像识别、社会经济语义标注的传统城市功能利用识别方法29-30。DTM脱离静态文本的固有主题模型训练模式,尝试挖掘在时间序列上地块的语义变化信息,以时序模型驱动数据,更充分地挖掘了出行大数据的时序特征。针对时间维度,本文提出了主题变化度指标描述地块的功能变化。该研究为动态主题模型在移动数据挖掘领域的应用提供了新的参考思路。

本研究提出的城市地块功能提取方案对数据的时间属性依赖性较强,由于其数据驱动特性,识别结果需要结合更加精确的时序土地利用分类加以验证,高时间分辨率的POI数据能够更好地标注研究区的动态语义变化,而远离市中心的区块由于POI缺失,其功能语义标注的准确性相对较低,搜集更完整的时序POI数据是完善该研究并开展下一步工作的关键。此外,在轨迹源数据中包含精确到毫秒的出发与抵达时刻信息,本研究只按照日为单位进行了数据的挖掘。未来可考虑以小时作为时间区间的划分依据,研究24 h内不同时刻的日通勤数据的变化情况31,挖掘北京市六环内的通勤主题信息,提取一天24 h内地块的活动语义,因此本实验仍有延伸与探索空间。

6 结 语

城市出租车活动是表征城市空间格局变化的重要现象,包含了城市居民出入不同场所的轨迹信息,从中能够得到具有时空伴随关系的用户,再运用有效的可视分析技术挖掘用户驻留行为规律,对城市管理者具有很重要的意义32。本文以文本挖掘领域中的主题模型方法作为理论基础,以北京市6 a内的交通数据流为驱动,探索模型结果中主题在时序上的变化特性。结合POI标注能够挖掘出城市地块活动语义,并进一步挖掘地块语义的时序变化信息。得出以下结论:

(1)动态主题分布呈现空间聚集性与空间扩散性,时序上地块语义强度表现出明显的圈层扩张性。主题模型首先提取出主题地块,按照主题地块语义强度与空间位置计算各主题重心,发现主题重心整体呈现向外漂移的趋势。对于所有地块的全部主题语义强度,其圈层分布明显向外环区域R5、R6扩散,说明2012~2017年间居民出行活动语义向外环区域扩张,符合该时间段城市扩张的趋势。

(2)基于出行活动的聚类簇空间边界随时间逐渐与研究区区级行政区划吻合,功能标注结果与区域的具体职能匹配程度较高。利用DTM主题在时间序列上的连续性和稳定性,具有高主题一致性和时间序列上较为固定的主题能够作为一项评价地块的稳定指标。

(3)主题变化度高值主要分布在外环区域,且与地块建设用地占比呈负相关关系。本研究提出主题变化度指标以描述城市地块活动语义的变化程度,空间上,外环区域的主题变化度明显高于内环区域。市区繁华区域活动语义显著低于外环城乡结合区域。说明外环区域城市功能尚不固定,内环区域城市功能趋于稳定。

参考文献

CHAI XürongLI MingZHOU Yiet al.

Rapid land cover classification using Landsat time series based on the Google Earth Engine

[J]. Remote Sensing Technology and Application, 2020352): 315-325.

[本文引用: 1]

柴旭荣李明周义.

影像的土地覆被快速分类

[J]. 遥感技术与应用, 2020352):315-325.

[本文引用: 1]

LI ChunhuaSHA Jinming.

Knowledge based BAYES image classification approach——Land cover/Land use of Fuzhuo Lanqi Island as a study case

[J].Research of Soil and Water Conservation,2006136):126-128132.

[本文引用: 1]

李春华沙晋明.

基于知识的遥感影像的BAYES分类方法研究——以福州市琅歧岛土地覆盖/土地利用类型为例

[J]. 水土保持研究, 2006136):126-128132.

[本文引用: 1]

LUO JianchengZHOU ChenghuYANG Yanet al.

Land-cover and land-use classification based on remote sensing intelligent Geo-interpreting model

[J]. Journal of Natural Resources, 2001162): 179-183.

[本文引用: 1]

骆剑承周成虎杨艳.

遥感地学智能图解模型支持下的土地覆盖/土地利用分类

[J]. 自然资源学报, 2001162):179-183.

[本文引用: 1]

LU LinSHAO ShiweiLIU Huiet al.

Urban jobs-housing spatial relationship exploration with floating car data

[J]. Journal of Geomatics 2021463): 110-113.逯琳, 邵世维, 刘辉,等. 利用浮动车数据挖掘城市职住空间关系[J]. 测绘地理信息, 2021, 463):110-113.

[本文引用: 1]

KANG ChaoguiLIU XuanXU Xinyueet al.

Impact of weather condition on intra-urban travel behavior: Evidence from taxi trajectory data

[J]. Journal of Geo-information Science, 2019211): 118-127.

[本文引用: 1]

康朝贵刘璇许欣悦 .

天气因素对武汉市出租车出行活动的影响

[J]. 地球信息科学学报, 2019211): 118-127.

[本文引用: 1]

KANG XiangPAN JianjunZHU Yanxianget al.

A method for identifying the urban Nuclei based on POI big data

[J]. Remote Sensing Technology and Application, 2021361): 237-246.

[本文引用: 1]

康翔潘剑君朱燕香.

一种基于POI大数据的城市核心区识别方法

[J]. 遥感技术与应用, 2021361): 237-246.

[本文引用: 1]

SONG CQU ZBLUMN Net al.

Limits of predictability in human mobility

[J]. Science, 20103275968): 1018-1021.

[本文引用: 1]

ASHBROOK DSTARNER T.

Learning significant locations and predicting user movement with GPS

[J]. Proceedings - International Symposium on Wearable Computers, International Semantic Web Conference, 20022002101-108. DOI: 10.1109/ISWC.2002.1167224

[本文引用: 1]

SOTO VFRIAS-MARTINEZ E.

Automated land use identification using cell-phone records

[J]. MobiSys’11 - Compilation Proceedings of the 9th International Conference on Mobile Systems, Applications, and Services and Co-located Workshops-HotPlanet’11,201117-22. DOI:10.1145/2000172. 2000179

[本文引用: 1]

LIANG JiahuiLIN JianDU Yanget al.

Research on the identification of urban land use under the big data condition:Dynamic awareness based on taxi GPS data

[J]. Shanghai Land and Resources, 2016.梁军辉, 林坚, 杜洋,等. [J]. 上海国土资源, 2016.

[本文引用: 1]

DENG XiaohengYANG ZirongGUAN Peiyuanet al.

Method based on word meaning and word frequency to improve vector space model

[J].Application Research of Computers. 2019365):1390-1395.邓晓衡, 杨子荣, 关培源,等. 一种基于词义和词频的向量空间模型改进方法[J]. 计算机应用研究, 2019, 365):1390-1395.

[本文引用: 1]

FENG YongBohao Hongyan et al.

Chinese fasttext short text classification method integrating TF-IDF and LDA

[J]. Journal of Applied Sciences, 2019373): 378-388.

[本文引用: 1]

冯勇屈渤浩徐红艳.

融合TF-IDF和LDA的中文FastText短文本分类方法

[J]. 应用科学学报, 2019373):378-388.

[本文引用: 1]

BLEI D MNG A YJORDAN M Iet al.

Latent Dirichlet allocation

[J]. Journal of Machine Learning Research, 200334-5): 993-1022.

[本文引用: 1]

WANG CBLEI DHECKERMAN Det al.

Continuous time dynamic topic models

[J]. Proceedings of the 24th Conference on Uncertainty in Artificial Intelligence, UAI 2008, 2008579-586.

[本文引用: 1]

WANG XMCCALLUM A.

Topics over Time: A non-markov continuous-time model of topical trends

[J]. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 20062006424-433.DOI: 10.1145/1150402.1150450

[本文引用: 1]

MIMNO DMCCALLUM A.

Topic models conditioned on arbitrary features with Dirichlet-Multinomial regression

[C]∥ Proceedings of the 24th Conference on Uncertainty in Artificial IntelligenceUAI 20082008411-418.

[本文引用: 1]

PANG BLEE L.

Opinion mining and sentiment analysis

[J]. Computational Linguistics,2009352):311-312. DOI: 10. 1561/1500000011

[本文引用: 1]

DREWNIANY J JPALMER A K.

The author-topic model for authors and documents

[J]. Orthopedic Clinics of North America, 1986173): 451-459.

[本文引用: 1]

ZHU JieZHANG HongjunLIAO Xianglinet al.

Latent semantic understanding of geographical environment spatio-temporal data based on topic model

[J] Acta Geodaetica et Cartographica Sinica,20215010):1404-1415.

[本文引用: 1]

朱杰张宏军廖湘琳.

基于主题模型的地理环境时空数据隐含语义理解

[J]. 测绘学报, 20215010):1404-1415.

[本文引用: 1]

ZHI LiehuiLI RenjieFU Xueqinget al.

Data mining method of hot-toponym and its co-occurrence in crowdsourcing text written by tourists

[J]. Science of Surveying and Mapping,2016418):144-151.

[本文引用: 1]

智烈慧李仁杰傅学庆.

众包旅游文本热度地名的共现数据挖掘

[J]. 测绘科学, 2016418):144-151.

[本文引用: 1]

ZHENG YLIU LWANG Let al.

Discovering regions of different functions in a city using human mobility and POIs Jing

[C]∥ Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining - KDD ’122008247.DOI: 10.1145/2339530.2339561

[本文引用: 1]

CHEN ShiliTAO HaiyanLI Xulianget al.

Discovering urban functional regions using latent semantic information: Spatiotemporal data mining of floating cars GPS data of Guangzhou

[J].Acta Geographica Sinica,2016713):471-483.

[本文引用: 1]

陈世莉陶海燕李旭亮.

基于潜在语义信息的城市功能区识别——广州市浮动车GPS时空数据挖掘

[J]. 地理学报, 2016713): 471-483.

[本文引用: 1]

Yuqiang QIN YongJIA Liminet al.

Dynamic traffic zone partition based on cluster analysis of taxi GPS data

[J]. Logistics Technology,2010299):86-88135.

[本文引用: 1]

吕玉强秦勇贾利民.

基于出租车GPS数据聚类分析的交通小区动态划分方法研究

[J]. 物流技术,2010299):86-88135.

[本文引用: 1]

WANG Ruiting.

The visualization and analysis of traffic data stream based on topic modeling

[D].HangzhouHangzhou Dianzi University2016.

[本文引用: 1]

王瑞婷.

基于主题模型的交通数据流可视化分析

[D].杭州杭州电子大学2016.

[本文引用: 1]

RODER MBoth AHINNEBURG Aet al.

Exploring the space of topic coherence measures

[J]. WSDM 2015 - Proceedings of the 8th ACM International Conference on Web Search and Data Mining, 2015399-408.DOI: 10.1145/2684822.2685324

[本文引用: 1]

GU YanyanJIAO LiminDONG Tinget al.

Spatial distribution and interaction analysis of urban functional areas based on multi-source data

[J]. Geomatics and Information Science of Wuhan University,2018437):1113-1121.

[本文引用: 1]

谷岩岩焦利民董婷.

基于多源数据的城市功能区识别及相互作用分析

[J]. 武汉大学学报:信息科学版,2018437):1113-1121.

[本文引用: 1]

WANG MiaoGUO YanbinXIE Yanfenget al.

Evaluation and analysis equity measure of public education resources

[J] Science of Surveying and Mapping,20204511):191-196.

[本文引用: 1]

王淼郭燕宾谢燕峰.

公共教育资源空间公平性测度评析

[J]. 测绘科学, 20204511):191-196.

[本文引用: 1]

ZHAN DongshengXIE ChunxinZHANG Wenzhonget al.

Identifying mixed functions of urban public service facilities in Beijing by cumulative opportunity accessibility method

[J]. Journal of Geo-Information Science,2020226):1320-1329.

[本文引用: 1]

湛东升谢春鑫张文忠.

基于累计机会可达性的北京城市公共服务设施复合功能识别

[J]. 地球信息科学学报, 2020226):1320-1329.

[本文引用: 1]

LIU XHE JYAO Yet al.

Classifying urban land use by integrating remote sensing and social media data

[J]. International Journal of Geographical Information Science, 2017318): 1675-1696.DOI: 10.1080/13658816.2017.1324976

[本文引用: 1]

ZHANG YLI QTU Wet al.

Functional urban land use recognition integrating multi-source geospatial data and cross-correlations

[J]. Computers, Environment and Urban Systems, 201978.

[本文引用: 1]

LIU MengWU Qunyong.

Spatial and temporal patterns of residents activity intensity based on taxi OD data

[J]. Journal of Fuzhou University (Natural Science Edition),2018462):204-209.

[本文引用: 1]

刘萌邬群勇.

基于出租车OD数据的居民活动强度时空特征研究

[J]. 福州大学学报:自然科学版, 2018462):204-209.

[本文引用: 1]

MA XiaodongZHAO FanREN Pengkunet al.

Visual analysis of resident behavior characteristics based on spatio-temporal data

[J]. Computer Engineering, 2023492): 105-111.

[本文引用: 1]

马小东赵凡任芃锟.

基于时空数据的驻留行为特征可视分析

[J]. 计算机工程,2023492):105-111.

[本文引用: 1]

/