好文档 - 专业文书写作范文服务资料分享网站

基于手机信令数据的服务业网点空间布局 与人口耦合关系研究 - 图文 

天下 分享 时间: 加入收藏 我要投稿 点赞

Hans Journal of Data Mining 数据挖掘, 2020, 10(4), 229-239

Published Online October 2020 in Hans. http://www.hanspub.org/journal/hjdm https://doi.org/10.12677/hjdm.2020.104024

基于手机信令数据的服务业网点空间布局 与人口耦合关系研究

陈佳懿,肖 莉*,潘怡颖,华海静

华南农业大学数学与信息学院,广东 广州

收稿日期:2020年9月4日;录用日期:2020年9月18日;发布日期:2020年9月27日

摘 要

服务业空间的合理布局是推动城市经济发展、满足居民消费需求的基础,服务业空间与人口的耦合度高低是衡量服务业布局优劣的重要依据。手机信令数据和城市兴趣点(POI)数据能够很好地反映城市人口分布和城市热点分布。本文以中山市为研究对象,利用2018年手机信令数据与POI数据,探究并分析了该市服务业网点的空间布局特征,并提出了基于动态聚类的手机信令数据人口耦合度模型,通过异常分析判断地区人口耦合情况优劣,并根据分析结果提出建议。

关键词

手机信令数据,POI数据,动态聚类,异常分析,中山市

Study on Coupling Relationship between Spatial Layout of Service Outlets and Population Based on Mobile Signaling Data in Zhongshan

Jiayi Chen, Li Xiao*, Yiying Pan, Haijing Hua

School of Mathematics and Information, South China Agricultural University, Guangzhou Guangdong

Received: Sep. 4, 2020; accepted: Sep. 18, 2020; published: Sep. 27, 2020

ththth

Abstract

Reasonable distribution of service industry is the basis to promote urban economic development

*

通讯作者。

文章引用: 陈佳懿, 肖莉, 潘怡颖, 华海静. 基于手机信令数据的服务业网点空间布局与人口耦合关系研究[J]. 数据挖掘, 2020, 10(4): 229-239. DOI: 10.12677/hjdm.2020.104024

陈佳懿 等

and meet the consumption demand of residents. The coupling degree of service industry space and population is an important basis to measure the advantages and disadvantages of service in-dustry layout. Mobile phone signaling data and POI data can well reflect the distribution of urban population and urban hot spots. This paper takes Zhongshan as the research object, using the mo-bile phone signaling data and POI data in 2018, explores and analyzes the spatial layout characte-ristics of the city's service industry outlets, puts forward the population coupling model of mobile phone signaling data based on dynamic clustering, judges the advantages and disadvantages of re-gional population coupling through abnormal analysis, and puts forward suggestions according to the analysis results.

Keywords

Mobile Phone Signaling Data, POI Data, Dynamic Clustering, Anomaly Analysis, Zhongshan

Copyright ? 2020 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). http://creativecommons.org/licenses/by/4.0/

Open Access 1. 引言

服务业的发展是满足居民消费需求、推动城市化进程的基础,服务业空间与人口的耦合度高低是衡量服务业布局优劣的重要依据。近年来,利用手机信令数据的时空动态性为挖掘人口空间分布特征提供了新的角度,能够更准确地为城市规划提出建议[1] [2] [3]。另外,随着POI数据的获取、更新技术进步,其包含的地理位置信息愈发准确,越来越多的研究视角聚焦于POI在城市空间布局方面的应用[4] [5] [6]。彭[7]基于手机信令数据与POI数据,提出了挖掘与判别城市的热点区域的方法,体现了两类数据在空间分析的相容性。钮[8]提出了利用手机信令数据识别城市空间结构的方法,能够识别手机用户的就业、居住、游憩等空间。张[9]以上海市零售商业POI数据和人口数据为基础,分析了上海市零售业空间布局特征与人口耦合关系,但未对地区人口耦合情况差异进行比较。

综上,目前国内对于服务业空间布局的研究方法和理论十分丰富,且对新型数据的使用有广泛的研究。但是针对人口耦合情况,仍拘泥于图像和数值的表象性,欠缺通过科学的统计对地区的人口耦合情况进行差异性分析,分析效率低、人工分析成本大,不利于空间研究的推进与发展。

2. 研究区域、数据来源和研究方法

2.1. 研究区域

中山,广东省地级市,下辖18个镇,6个街道,位于珠江三角洲中部偏南的下游出海处,为珠三角中心城市之一。作为粤港澳大湾区重要节点城市,对周边省市具有极强的辐射能力。近10年来,中山市的第三产业(服务业)占生产总值构成比例逐年上升,并有超越第二产业成为中山市生产总值的第一来源的趋势。可见,研究中山市的服务业的空间分布与人口耦合关系对中山市的城市化发展有重要意义[10]。

2.2. 研究数据

2.2.1. 手机信令数据

本文的数据源是中山市所有手机用户于2018年11月生成的手机信令数据。经统计,数据源中共包含3,113,091名手机用户的移动轨迹数据,基本能表征出中山市所有居民的行为特征。经过大数据平台进

DOI: 10.12677/hjdm.2020.104024

230

数据挖掘

陈佳懿 等

行初步筛选和统计得到本文所采用的数据,现选取数据源中部分轨迹数据如表1进行展示。

Table 1. Mobile signaling data example 表1. 手机信令数据示例

用户号码

1 2 3 4

日期 2018/11/1 2018/11/1 2018/11/1 2018/11/1

时间 8:37 8:38 9:02 9:03

基站小区 中山三乡 中山三乡三合 中山三乡三鑫学校 中山三乡东城时代广场

经度 113.43252 113.43252 113.42967 113.43252

纬度 22.223313 22.223313 22.206666 22.223313

移动通讯网络是由一系列的蜂窝基站构成的,这些蜂窝基站把整个通信区域划分成若干蜂窝小区。手机运行时,附近的移动通讯网络会标记用户所在基站覆盖的蜂窝小区,由此产生手机信令数据。利用该特点,本文将时间阈值位于22:00~8:00内停留超过4小时的信令基站位置判断为“居住点”,得到居住口径数共11,604条。

通过居住口径与统计年鉴常住人口数的占比进行配对t检验,可以得知在0.05的显著性水平下,由手机信令数据得到的居住口径实际情况之间不具备显著差异性,证明了由手机信令数据得到的居住口径对应的各镇(区)人口占比的准确性,采用居住口径得到的人口比例进行地区的服务业网点的人口耦合度计算是可行的。 2.2.2. POI数据

POI (Point of Interest),即兴趣点,本文的数据来源为百度地图开发的API,由于现代服务业分类体系并无明确规定,本研究筛选分类依据为《国民经济行业分类》对现代服务业的详细解释与描述,以及百度地图POI分类体系的各类别描述。

本研究数据来源为2019年6月从百度地图获取的POI数据,通过纠偏和矫正,筛选提取出研究区域的服务业点信息共43,625条,并通过电话询问等方法确定数据的准确性,把服务业分为4种业态类型(大类)和10种网点类型(小类),如下表2所示。

Table 2. POI data of Zhongshan 表2. 中山市POI数据

业态类型 Q1餐饮住宿类 Q2公共服务类 Q3休闲娱乐类 Q4综合购物类

POI网点类型 酒店、美食 生活服务、行政机构 旅游景点、运动健身

商店、商场、特色商业街、家居建材

数量/个 9058 6616 15,758 12,193

比例/% 20.76% 15.17% 36.12% 27.95%

2.3. 基于手机信令数据的人口耦合模型

2.3.1. 基于动态聚类法的耦合度模型

1) 动态聚类法

动态聚类法是一种使用于大样本的Q型聚类分析方法,其基本思想是先粗略地进行预分类,然后通过某种最优准则进行逐步调整,直至将类别分得比较合理为止。

2) K-Means聚类

K-Means算法是最具有代表性基于距离的聚类算法,通常以误差平方和最小作为判断标准进行分类,如公式(1)所示,将n个样本x划分为k个互不相交的聚类簇Z,其中μj为簇的中心。

DOI: 10.12677/hjdm.2020.104024

231

数据挖掘

陈佳懿 等

(∑i0=∑j0μmin=∈Znkjjxi?μj) (1)

本文共有两部分使用K-Means聚类算法:耦合度计算与耦合情况类型分类。其聚类方式可由如下流程图所示(图1):

Figure 1. Flow chart of K-means clustering

图1. K-Means聚类法流程图

本文在耦合度计算过程,由于手机信令判断得到的居住点需要划定区域确定被服务范围,有别于通过街道信息划定区域,以距离作为衡量网点的服务区域更能够反映实际情况。在本文耦合度的计算中,利用动态聚类法将各区(镇)居住点按距离分为K簇,每簇定义为一个“居住聚集区”,认为该区域内的居民具有一致的被服务区域,用于居住点与服务网点的耦合度C计算。

3) 人口耦合度模型的构建

本文对手机信令得到的居住点人口规模与POI服务业网点的耦合情况进行分析,首先定义人口与各服务网点耦合度C,模型如下:

?=?cqi???=Ci??=∑∑jk1cqij=k1=Kn∑k1=∑j1Pq=KnkPj×kmaxdidij∑k=1N×cqimnq (2)

式中,cqi为q镇(区)在i服务业网点类型的耦合度;Pj为居住点的人数,Pqk为q镇(区)中????居住聚集区最大人口居住点的人数;dij为对应住宅点的邻近值,maxdi为i服务业网点在区域内最大的邻近值。Ci为中山市在i服务业网点的耦合度,等于对应网点的各镇(区)耦合度人口加权平均。

在此基础上,定义人口与各业态类型耦合度Q,模型如下:

?Qqi=∑mPwicqii=1? (3) ?mnq=?Qi∑k=1×QqiN?其中,mP为大类包含的小类数量,wi是大类服务类型对应的第i小类权重,权重计算为:

DOI: 10.12677/hjdm.2020.104024

232

数据挖掘

陈佳懿 等

wi=第i小类网点数量 (4)

大类中所有网点总数量2.3.2. 空间点模式分析

1) 最邻近指数(Nearest Neighbor Index, NNI)

NNI测度方法用于研究其服务业空间的分布模式,分析各个服务业空间实体在区域空间中的邻近程度,探索各类服务业空间的集聚与分散程度,具体方法如下:

dNN=INN=dran∑i=1nmin(dij)n×1 (5) dran在本文,INN为居住口径与各类服务业网点的最邻近距离系数,n为服务业网点样本数目,dij为服务网点i到居住点j的距离,mindij为服务网点i到最邻近居住点的距离,dmn为服务业网点空间随机分布条件下的平均距离,取dran=0.5()A,其中A为中山市面积。 nINN大于1时,该类中山市服务网点格局聚集,最邻近点对间平均距离会小于平均随机距离;否则,

该类中山市服务网点格局分散分布,最邻近点对间平均距离大于平均随机距离。且INN比值越小,该类中山市服务网点集聚;比值越大,该类中山市服务网点格局越分散。同时,采用Z值检验计算结果的统计显著性,公式如下:

Z=dNN?dran,SEdran=SEdran(4?π)A (6)

4πn2式中,SE为Z的标准误差。在0.01的置信度下,Z值小于?2.58,该服务业网点模式属于集聚模式;若Z值大于2.58,则该服务业网点模式属于均匀模式。

2) 空间核密度估计法

按照单位范围内的信息数据来估算其布局密度。研究区域中山市的空间区为s处的核密度计算函数为:

f(s)=∑i=1n1h2?c?ck?si?h?? (7) ?式中,n是与位置s的距离小于或等于h的服务网点数目;h是距离衰减阈值;k函数则表示空间权重函数,这一函数是指研究对象的密度值在每个核心要素处最大,并且核密度值随着距离的增大而降低,直至与核心的距离达到阈值h时研究对象的核密度值降为0。

3) Ripley’s K函数聚类分析

是一种对数据点进行不同距离的聚类程度的点数据模式分析方法,表明点要素核心空间的聚集或离散程度,以及在研究区域大小发生变化时是如何变化的。计算公式为:

K(r)=A∑i∑jnnwij(r)n2,=L(r)K(r)π?r (8)

式中,r为既定或计算得到的距离阈值;A为中山市面积;n为各类服务业网点的样本点数目;wij(r)表示在距离r范围内,某一类中服务业网点i与网点j之间的距离,L(r)函数是K(r)作开方的线性变换。

L(r)与r的关系可以检验在距离r范围内,各类服务业的空间分布格局。如果L(r)大于预期值,即

L(r)>0,表示该类服务业呈集聚分布;如果L(r)小于预期值,即L(r)<0,则表示该类服务业成分散

分布;若L(r)=0,说明该类服务业随机分布。

DOI: 10.12677/hjdm.2020.104024

233

数据挖掘

基于手机信令数据的服务业网点空间布局 与人口耦合关系研究 - 图文 

HansJournalofDataMining数据挖掘,2020,10(4),229-239PublishedOnlineOctober2020inHans.http://www.hanspub.org/journal/hjdmhttps://doi.org/10.12677/hjdm.2020.104024<
推荐度:
点击下载文档文档为doc格式
36j3x4q8zw79ew80o94h77xpo584e200r1w
领取福利

微信扫码领取福利

微信扫码分享