站点图标 GIS开发者

白话空间统计之二十五:空间权重矩阵(一)点数据的空间关系(1)


空间分析的根基,来源于60年代Waldo R. Tobler教授“地理学第一定律”的“Tobler’s First Law”(简称TFL),即为“Everything is related to everything else, but near things are more related to each other。”。翻译成大白话,就是:任何事情呢,都是有关系,只不过靠得越近,关系就越紧密。

在这个观点里面,Tobler教授很“狡猾”(李小文院士语)使用了near这个词,而不使用距离这个词,从而避免了当时地理学家们定义的所谓十四种所谓的“距离”概念。

含糊其辞带来了无穷的可能性,正如国画技艺上的所谓“留白”,只有给予足够的想象空间,才会带来更高远的意境。

Tobler教授使用Near这个词,使地理学第一定律在这几十年中,不断的扩展他的应用领域,包括了后来的计量经济学、计量社会学,以及今天的复杂社会计算、时空一体化等等,在这次《空间权重矩阵》系列的文章中,虾神将全面解析ArcGIS、R以及其他几种软件的空间权重矩阵组织和自定义方式。

首先简单介绍一下所谓空间权重矩阵是个啥东东。

一般来说,空间数据的组织方式无非是点线面三种,而点、线这两种结构大都是是逻辑结构——物理上,点和线,在现实世界都被扩展为面要素了。但是在分析上,点线面三者的比重,却是这样的:

点数据实际上是分析数据的主要表现形式。现实世界中,任何事务,都可以抽象为一个点。

但是我们在做空间统计的时候,面数据却是主要的表现形式——因为空间统计目前最火热的研究领域实际上是计量经济学,而计量经济学,又更多是研究区域经济学,大多载体是以行政区划(或者其他)为主要的空间表现形式的数据。

下面我们还是从点数据开始,来讲讲空间权重矩阵。

两个点要素,如果从拓扑关系上来来说,就只有两种关系:分离或者重合。因为点在物理结构上,是没有大小只说的,所以就没有所谓的邻接关系。

分离:

重合:

那么点数据的空间关系,最简单的来说,就是下面所示的:

用实际例子来表示,就是这样的:

问号猫与发呆猫完全重叠,这样问号猫就被遮住了……实际上重合点这种情况在计算的时候,很容易出现正无穷大;而后面两只猫,与发呆猫的关系,都是分离,他们的权重与他们的距离成反比。

点数据在分析的时候,如果出现了重叠,会带来各种各种麻烦的,最常见的就是很多算法里面,把重叠的点的权重设为正无穷大,计算出来的结果也就千奇百怪了。

在ArcGIS里面,建议做点数据分析的时候,先调用一个工具,叫做“收集事件”,就是用来处理重合点的:

好吧,关于这些数据的处理,以后有机会再说,下面我们来看看点数据的空间关系:

原始数据是北京市的64家三级以及三级甲等医院:

利用反距离方法,来做他们的空间权重矩阵:

从ArcGIS的空间权重矩阵工具可以看见,点数据在ArcGIS里面只有五种空间关系概念(自定义表不算的话),缺了所谓的共点相邻和共点共边都相邻两种关系。

关于空间关系概念化的内容,请查看以前的文章:

空间关系概念化

这里我们选择最简单关系,也就是反距离,然后生成,输出结果报告如下:

前面那个红框里面的警告,是说我这里的数据用了经纬度,距离计算会出现稍许的不精确(做空间分析的时候,如果有条件,最好把数据弄成投影坐标系的,而且,如果你的数据范围超过了30度的话,最好要采用投影数据,否则会出现较大的误差)。

第二个警告是说,我没有设置默认搜索距离,所以这里默认给了26公里的默认搜索距离。这个默认搜索距离主要是限制每个要素的临近要素的数量,Esri官方说法是,最好保证每个要素都最少有1个,但是比较好的做法是最好弄成8个,这样会有比较好的计算结果(但是也不是多多益善的……临近要素太多,会导致空间的局部差异性被忽略掉,越多,忽略得越严重——如果所有要素都联通,则空间权重就都为1,这样空间统计和经典统计就没有啥区别了)。

下面蓝色框是对临近结果进行统计。然后我通过空间连线,来看看结果:(空间连线的做法,我在后面会慢慢说到)

从连线的结果可以看见,在搜索范围内(26公里)的点,都被设为临近要素,而超出的部分就不计算了。

我们也可以设置减少搜索范围,比如我把搜索范围降低到10公里左右:

因为我这里的数据是经纬度的,所以要在环境变量里设置输出要素的单位:设置为web 墨卡托:

生成空间权重矩阵,输出的结果报告,出现了如下警告:有出现没有邻居的要素6个:(这种情况称之为岛状要素,在分析的时候会出现很多意外情况,在分析的时候,实际上是要尽量避免出现岛状要素的)。

之后,进行连线,结果如下:

回过头来看看,不做任何设置的时候,那个默认26公里是怎么出来的:

实际就是最远的两个要素之间的值,被设置为了阈值。那么这种机械的情况,可否处理呢?我们能不能有更好的方法来决定临近关系?请听下回分解。

待续未完。



转载自:https://blog.csdn.net/allenlu2008/article/details/74194439

退出移动版