地理风险探测器
1.1 地理风险探测器
地理探测器(GeoDetector)及其软件是基于空间方差分析来探测健康风险的环境因子的新工具。包括四个方面功能:因子探测器定量评价不同环境因子的解释力;交互探测器判断环境因子交互强度;风险探测器指示风险区域;生态探测器比较不同环境因子的影响差异显著性。地理探测器的理论前提为:如果环境因子对某疾病有决定作用,那么这两种变量的空间分布应该具有相似性。
地理探测器原理:
因子探测。探测某种环境因子是否是某疾病的空间分布格局形成的主要因素,用q值度量:
q?h?1?L2N?hh?12N?
其中h = 1, …, L 记某种因子的空间分布的子区,Nh, N 分别是子区h和全
2
区的样本单元数;???, ??2 分别是子区h和全区的疾病发病率或流行率的离散方
差。q取值范围为 [0, 1],值越大说明这种因子对发病率或流行率的解释力越强,反之则越弱。极端情况下,q 值为1说明这种因子完全控制了疾病的空间分布,q值为0则说明这种因子与疾病没有任何关系。
交互探测。识别不同的风险因素之间的交互作用。因子x和y共同作用时是否会增加或减弱某种健康风险,或是这些因子对健康影响是独立作用的。首先分别计算两种因子以及它们交互的q值,它们之间的关系可分为以下几类(图1):
表 错误!文档中没有指定样式的文字。-1 交互探测器
图示 判据 相互作用关系
q(x?y) < Min(q(x), q(y)) Min(q(x),q(y))< q(x?y) <
Max(q(x)), q(y)) q(x?y) > Max(q(x), q(y)) q(x?y) = q(x)+ q(y)
非线性减弱 单因子非线性
减弱 双因子增强
独立
注:
q(x?y) > q(x)+ q(y) 非线性增强
Min(q(x), q(y)) Max(q(x), q(y))
q(x)+ q(y) q(x?y)
风险探测。判断一个区域的健康风险与其它区域是否有显著的差别。用t统计量来检验:
tHz?1?Hz?2?(Hz?1?Hz?2)/[1nz?1,pVar(Hz?1)?1nz?2,pVar(Hz?2)]1/2
其中,H表示健康风险,nzp子区域z内样本p的数目, Var 表示样本方差。统计量t近似地服从Student’s t分布,其中自由度的计算方法为:
Var(Hz?2)nz?1,pnz?2,pdf?1111[Var(Hz?1)]2?[Var(Hz?2)]2nz?1,p?1nz?1,pnz?2,p?1nz?2,p1Var(Hz?1)?1
零假设 H0 :Hz?1=Hz?2, 如果在置信水平α下拒绝 H0, 则认为两个地理区域间的健康风险存在着明显的差异。
生态探测。比较不同的因子在影响疾病的空间分布方面是否有显著的差异。以F统计量来衡量,表达式如下:
F?2NL1,p(NL1,p?1)?L1,z2NL2,p(NL2,p?1)?L2,z
其中NL1,p 及N L2,p 表示两个环境因子分区中的样本量。其中零假设 H0:
22?L1,z=?L2,z. 如果 在 α的显著性水平上拒绝H0, 这表明两因子在影响疾病的空
间分布方面存在着显著的差异。
地理探测器软件的使用主要包括以下几个步骤:
(1)数据的准备。数据包括健康数据以及环境数据。数据中需要包括属性信息,以及空间位置信息。
(2)数据离散化。环境风险数据一般情况下是空间分区数据。如果所收集数据有连续型变量,则需要进行对数据离散化分类。分类的方法可以通过专家知
识,也可以通过数据探索分析。
(3)软件运行。地理探测器运行的结果可以揭示健康变量与环境因子之间关系。这些知识包括:健康风险主要存在于哪些地区?影响健康的主要环境因素是什么?影响程度如何?不同的环境因素对健康的影响是否有显著的差异?
现实情况中,自然环境和社会因素是多种疾病的决定因素,这些信息往往存在空间分层异质性。基于此提出了GeoDetector理论和方法,其核心思想是通过空间分区来分析疾病与风险因子之间的时空关联性。在此理论基础上开发了GeoDetector软件。此软件嵌入在Excel中,易于使用,只有一个用户界面,输入数据后,点击“Run”按钮就可以运行。 这种“一键式”操作将适用于更多非地理学专业的领域。此外,此软件不需要安装任何GIS组件,所有的空间信息都存储于格网中。 地理探测器软件下载地址及操作说明: http://www.geodetector.org/
【案例 错误!文档中没有指定样式的文字。-1】
使用地理探测器模型,研究城市化水平、人均GDP、年平均气温、年降水量、年日照时数这五种因素对细菌性痢疾的影响程度,并分析影响因素两两之间对细菌性痢疾的交互作用。 案例分析导图
(1)了解数据
地理探测器中的因变量可为连续型变量或是二值变量,自变量必须为分类变量,若自变量为连续型变量,需要对此变量进行适当的离散化处理。一般上将连续性变量转换成分类变量有两种方式(即形成空间分区或分层):一是根据专业知识或经验进行分类,比如年平均气温可以通过气候带的定义来确定空间上的分区;二是通过数据的分类算法(包括基于专业领域知识的分类算法)来形成空间分区,如等间距法、分位数法、K-means等,分类的效果可通过地理探测器的q值来评价,q值越大分区效果越好。
数据格式如表错误!文档中没有指定样式的文字。-2所示(C:\\Example\\Data\\8.1Geodetector\\geodetector_data.csv),离散化后的数据如表错误!文
档
中
没
有
指
定
样式
的
文
字
。-3
所示
(C:\\Example\\Data\\8.1Geodetector\\simulation.csv)。
表错误!文档中没有指定样式的文字。-2 细菌性痢疾发病率及其影响因素 县区地理编码 430102 430103 430104 430105 430111 430122 430121 430124 430181 430202 年平均发病率/(1/10万) 0.533883 0.25092 1.02992 0.145272 0.400601 0.152976 0.110078 0.207039 1.222794 1.309318 城市化水平/% 100 99.43 85.37 97.82 99.05 55.38 57.42 50.1 55.37 95.04 人均GDP/元 175312 132665 94812 111841 190226 84780 107562 75076 78127 62108 年平均气温/℃ 17.46 17.46 17.46 17.46 17.46 17.46 17.46 18.05 18.14 18.29 年降水量/mm 1538.2 1538.2 1538.2 1538.2 1538.2 1538.2 1538.2 1458.6 1694 1587.7 年日照时数/h 1263.4 1263.4 1263.4 1263.4 1263.4 1263.4 1263.4 1408.3 1298.4 1356.4 表错误!文档中没有指定样式的文字。-3 连续型变量离散化结果 县区地理编码 430102 430103 430104 430105 430111 430122 430121 430124 430181 430202
(2)运行地理探测器 步骤1:下载地理探测器
在上文提供的链接中下载地理探测器1(图 错误!文档中没有指定样式的文字。-1),并解压。
年平均发病率/(1/10万) 0.533883 0.25092 1.02992 0.145272 0.400601 0.152976 0.110078 0.207039 1.222794 1.309318 城市化水平/% 4 4 3 4 4 3 3 3 3 3 人均GDP/元 5 5 5 5 5 5 5 4 4 4 年平均气温/℃ 2 2 2 2 2 2 2 2 3 3 年降水量/mm 3 3 3 3 3 3 3 3 3 3 年日照时数/h 4 4 4 4 4 4 4 4 4 4
图 错误!文档中没有指定样式的文字。-1 地理探测器下载
步骤2:数据导入(图 错误!文档中没有指定样式的文字。-2)
打开地理探测器(名为GeoDetector_2015_Example(Disease Dataset).xlsm),界面为一个启用宏的Excel表(图 错误!文档中没有指定样式的文字。-2a),点击【启用内容】,
a
弹出地理探测器对话框(图 错误!文档中没有指定样式的文字。-2b),
空间统计方法-地理风险探测器、案例



