白话空间统计十九：热点分析(上)

by giser · 2019-04-18

白话空间统计十九：热点分析(上)

哈罗，各位好，话说虾神已经消失很久了，很多人在问是不是停止更新了？那肯定是不可能的，虾神发下宏愿，要把白话空间统计写完的。只不过这段时间遇上各种加班和一年一度的用户大会，所以就断掉了一段时间……

好吧，废话不多说，进入正题。虾神回归写的第一篇，就是大家期盼已久（虾神自己期盼已久）的热点分析了。

其实，互联网地图在最初经历了浏览查询和路径导航应用以外，在空间分析上，最先让大众所了解的，就是类似这样的热力地图了：

而且某度还直接挂了“热力”地图这样的高大上的名称，所以我们（不明真相的群众们）自然也就把“热点分析”当成了类似于做这种热力图的过程了。

而实际上，会被提出这样一个问题：红色的地方，自然表示热度大，表示人多，这个很容易理解，但是有些被标明是“冷点”的地方，真的是表示人少么？

回答自然不是，正如上面思考的内容，如果蓝色的地方，是冷点，是人少的话，那么没有颜色的地方呢？

所以，得出如下这一结论：

那么，热力图，在空间分析里面，叫做什么呢？实际上，热力图，在空间分析里面，他的专业名词，叫做“密度分析”。而且类似百度这种热力图，仅仅是密度分析里面的“点密度”，也就是代表一个个人的点，单纯的按照数据的多少，来进行聚集，而不去考虑权重、空间关系等内容。

不过，群众喜闻乐见的东西，才是好东西，我对于百度能够将这种空间分析的思路推向大众，那是万分的尊崇的，这才是一个科普工作者应该做的事情。

前面花这么大篇幅讲解，主要就是更正一个名词，热力图，不等于热点分析，所以，我这篇博客写完之后，很多同学肯定会严重的质疑：为什么虾神你的热点分析，做出来的东西和百度的热力图完全不一样捏？所以现在我先进行正名：热点分析不等于热力图、热点分析不等于热力图、热点分析不等于热力图（重要的事情说三遍）。

当然，百度这种热力图怎么做，以后我讲到密度分析的时候，会专门讲，老规矩——挖坑待填……

热点分析的算法叫做Getis-OrdGi* 统计（称为 G-i-星号）。看着是不是很眼熟啊！恭喜你，答对了，我们前面讲过一个“高/低值聚类”，叫做Getis-Ord
GeneralG，是由美国乔治敦大学麦克多诺商学院(McDonough School of Business)的J. Keith Ord和圣地亚哥州立大学地理系的Arthur Getis两人提出的，而这个Gi*算法，是这个高低值聚类算法的进阶版。

关于高/低值聚的Getis-Ord GeneralG算法，不记得了的同学请回头去看白话空间统计之十四……这里就不多说了。

那么热点分析是用来干嘛的呢？

我们知道，空间统计里面，最重要的两个值就是P值和Z得分，所以他们首先肯定是计算P值和Z得分的了（不记得P值和Z得分是干嘛的，请看以前的文章）。

通过得到的 z 得分和 p 值，我们可以知道高值或低值要素在空间上发生聚类的位置。但是这个工具的工作方式有些特殊：它查看邻近要素环境中的每一个要素。高值要素往往容易引起注意，但可能不是具有显著统计学意义的热点。要成为具有显著统计需意义的热点，要素应具有高值，且被其他同样具有高值的要素所包围。

听到这句话，是不是又有了似曾相识的感觉了？不错，这个解释不就是Anselin Local Moran’s算法要解决的问题么？高的和高的蹲一起，低的和低的蹲一起，如下图：

但是，Anselin LocalMoran’s算法，很容易出现下面这样的问题：

我们可以看见，A区域有一个点，值高达10000，其他的点的值都是3，是典型的HL（高值被低值环绕），而B区域都是50，属于标准的低值聚类，但是通过核密度（也就是所谓的热力图）计算，HL区域极度的高热……这就是前面说的，高值要素往往让人特别的关注，但是实际上是否是具有统计学意义上的热点呢？还是未必的。

所以，无论是在心理学里面，还是在实际分析的过程中，都很容易出现这种问题的：

所以，从上面两个例子，我们可以看到，在统计学的热点分析和热力图这种密度分析，是完全不同的概念。那么这个热点分析到底是什么东西呢？欲知后事，请听下回分解。

转载自：https://blog.csdn.net/allenlu2008/article/details/49231029

白话空间统计十九：热点分析(上)

You may also like...

公众号

微信群

微信小程序

白话空间统计十九：热点分析(上)

You may also like...

白话空间统计二十四：地理加权回归（四）

白话空间统计之二十五：空间权重矩阵（一）点数据的空间关系（1）

白话空间统计十九：热点分析（中）

公众号

微信群

微信小程序