空间分析的概念 空间分析:是基于地理对象的位置和形态特征的空间数据分析技术,其目的在于提取和传输空间信息。包括空间数据操作、空间数据分析、空间统计分析、空间建模。 空间数据的类型 空间点数据、空间线数据、空间面数据、地统计数据 属性数据的类型 名义量、次序量、间隔量、比率量
属性:与空间数据库中一个独立对象(记录)关联的数据项。属性已成为描述一个位置任何可记录特征或性质的术语。
空间统计分析陷阱1)空间自相关:“地理学第一定律”—任何事物都是空间相关的,距离近的空间相关性大。空间自相关破坏了经典统计当中的样本独立性假设。避免空间自相关所用的方法称为空间回归模型。2)可变面元问题MAUP:随面积单元定义的不同而变化的问题,就是可变面元问题。其类型分为:①尺度效应:当空间数据经聚合而改变其单元面积的大小 、形状和方向时,分析结果也随之变化的现象。②区划效应:给定尺度下不同的单元组合方式导致分析结果产生变化的现象。3)边界效应:边界效应指分析中由于实体向一个或多个边界近似时出现的误差。
生态谬误 在同一粒度或聚合水平上,由于聚合方式的不同或划区方案的不同导致的分析结果的变化。(给定尺度下不同的单元组合方式)
空间数据的性质 空间数据与一般的属性数据相比具有特殊的性质 如空间相关性,空间异质性,以及有尺度变化等引起的MAUP效应等。一阶效应:大尺度的趋势,描述某个参数的总体变化性;二阶效应:局部效应,描述空间上邻近位置上的数值相互趋同的倾向。 空间依赖性:空间上距离相近的地理事物的相似性比距离远的事物的相似性大。 空间异质性:也叫空间非稳定性,意味着功能形式和参数在所研究的区域的不同地方是不一样的,但是在区域的局部,其变化是一致的。
ESDA是在一组数据中寻求重要信息的过程,利用EDA技术,分析人员无须借助于先验理论或假设,直接探索隐藏在数据中的关系、模式和趋势等,获得对问题的理解和相关知识。 常见EDA方法:直方图、茎叶图、箱线图、散点图、平行坐标图
主题地图的数据分类问题 等间隔分类;分位数分类:自然分割分类。 空间点模式:根据地理实体或者时间的空间位置研究其分布模式的方法。 茎叶图:单变量、小数据集数据分布的图示方法。
优点是容易制作,让阅览者能很快抓住变量分布形状。缺点是无法指定图形组距,对大型资料不适用。
茎叶图制作方法:①选择适当的数字为茎,通常是起首数字,茎之间的间距相等;②每列标出所有可能叶的数字,叶子按数值大小依次排列; ③由第一行数据,在对应的茎之列,顺序记录茎后的一位数字为叶,直到最后一行数据,需排列整齐(叶之间的间隔相等)。 箱线图&五数总结 箱线图也称箱须图需要五个数,称为五数总结:①最小值②下四分位数:Q1③中位数④上四分位数:Q3⑤最大值。分位数差:IQR = Q3 - Q1 3密度估计是一个随机变量概率密度函数的非参数方法。 n1?x?xi??(x)?fK ??nhi?1?h?
应用不同带宽生成的100个服从正态分布随机数的核密度估计。
空间点模式:一般来说,点模式分析可以用来描述任何类型的事件数据。因为每一事件都可以抽象化为空间上的一个位置点。
空间模式的三种基本分布:1)随机分布:任何一点在任何一个位置发生的概率相同,某点的存在不影响其它点的分布。又称泊松分布
2)均匀分布:个体间保持一定的距离,每一个点尽量地远离其周围的邻近点。在单位(样方)中个体出现与不出现的概率完全或几乎相等。
?3)聚集分布:许多点集中在一个或少数几个区域,大面积的区域没有或仅有少量点。总体中一个或多个点的存在影响其它点在同一取样单位中的出现概率。
点模式的描述:1)一阶效应:事件间的绝对位置具有决定作用,单位面积的事件数量在空间上有比较清楚的变化,如空间上平均值/密度的变化。2)二阶效应:事件间的相对位置和距离具有决定作用,如空间相互作用。 空间点模式分析方法:
1)基于密度的方法:测度一阶效应
①样方分析,包括选取所有点和随机取样法。步骤:a)研究区域中打上网格,建议方格大小为OuadratSize=2A/n A:研究区域面积,n:点的个数。 b)确定每个网格中点的个数。 c)计算均值(Mean)、方差(Var)和方差均值比:VMR=Var/Mean {对于均与分布,方差=0,因此VMR的期望值=0;对于随机分布,方差=均值,因此VMR的期望值=1;对于聚集分布,方差大于均值。因此VME的期望值>1.}
样方分析的缺点:结果依赖于样方的大小和方向;样方分析主要依据点密度,而不是点之间的相互关系,所以不能区别图示的两种情况。
②样方分析的统计检验,包括K-S检验和方差均值比的X2检验。
③核密度估计 基本思想:在研究区域内的任一点都有一个密度,而不仅仅是在事件点上。 该密度通过计数一定区域内的事件点数量,或核(Kernel)进行估计。核以估计点为中心,一定距离为半径。
? #.[S?C(p,r)]?p? ??r2C(s,r)是以点s为圆心、r为半径的圆域,#表示事件S落在圆域C中的数量。 核密度估计(KDE)用途:
a) 可视化点模式进行热点 (hot spot)探测; b) 离散?连续。 如,疾病与污染。
2)基于距离的方法:测度二阶效应 ①最近邻距离
计算每个点到其最近邻点之间的距离, 然后计算所有点最近邻距离的平均值。对每一个点,根据其欧几里德距离最小确定其最近邻点。
平均最近邻距离的大小,反映点在空间的分布特征。最近邻距离越小,说明点在空间分布越密集,反之,越离散。 ②最近邻距离的方法 G函数:欧几里德距离 d(si,sj)?(xi?xj)2?(yi?yj)2n
d(si)i?1min dmin?dmin(si)?minj?(1,n)&j?i(dij)n
计算G函数的一般过程:1、计算任一点到其最邻近点的距离d;2、将所有最邻近距离列表,并按照大小排序;3、计算最邻近距离的变程R和组距;4、根据组距上线,累计计数点的数量,并计算累计频数;5、画出G(d)关于d的曲线。
?G(d)?#[dmin(si)?d]n
F函数:与G函数仅仅基于事件间最近邻距离的频率分布不同,F函数基于区域内任意位置
点与事件间最近邻距离的频率分布。
F函数计算的三个步骤:随机选择m个位置{p1, p2, …, pm}; 计算dmin(pi, s) :pi到点模式S中的任一事件的最小距离;计算: F(d)?#[dmin(pi,S)?d]m
K函数:与G函数、F函数只使用事件或点的最近邻距离不同,K函数基于事件间的所有距离。因此,K函数不仅能探测空间模式,而且可以给出空间模式和尺度的关系。
定义
E(#(距任一事件距离小于d的事件)) K(d)??
经验K函数估计的四个步骤:
1) 对于每一个事件si ,以si为圆心、d 为半径画圆C(si,d) 2) 计算圆内其他事件点的数量 #[S?C(si,d)]
n3) 计算同一半径下所有事件的均值 #[S?C(si,d)]i?1
n4) 均值除以研究区内事件密度得:
n#[S?C(si,d)]An i?1?(d)?K?2#[S?C(si,d)]? nn?i?1空间接近性与空间权重矩阵 实质上,空间接近性就是面积单元之间的距离关系,根据地理学第一定律,空间接近性描述了不同距离关系下的空间相互作用,而接近性程度一般使用空间权重矩阵来描述。
空间自相关:空间自相关描述空间中位置上的变量与其邻近位置上同一变量的相关性。 空间权重矩阵
为了测度一组地理对象的空间自相关性,必须讨论识别多边形之间关系的方法。空间自相关衡量的是邻接区域内各单元属性值的相似程度,但首先必须定量地界定“邻接区域”的概念。即,在计算这些统计量之前,必须定量地界定区域单元之间的邻接关系,即,空间权重矩阵。
? 邻居的类型:两种规则
– 邻接 (公共边):二值或标准 – 距离 (距离带,K-近邻)
连接数统计量连接数统计量(Join Count Statistics):一般用于名义量(nominal)数据,尤其是二值变量数据。 全局空间自相关指标 wij(zi?z)(zj?z)nij①Moran’s I 指数及其统计检验 I?wij(zi?z)2、
ijinn
wij(yi?yj)2②Geary’s C 指数、 n?1i?1j?1C?nnn
2(yi?y)2wij
i?1i?1j?1③Getis’s G 指数。 wij(d)zizjij G(d)?, i?jzizj
ij三个指标计算方法相似,一般用于间隔量(interval)和比率量(ratio)数据,最常用的是Moran’s I。 局部空间自相关指标 LISA:全局自相关的分解,描述一个面元在多大程度上与其邻居相似,
?????????????????