白话空间统计十三：零假设（补记）

by giser · 2019-04-18

说在前面的话：前面花了好多章来讲各种数据分析的方法和例子，突然发现我原来设想的主线乱了。我的设想是对空间统计进行科普型的描述，结果写到后面，特别是这几章（准确说是从填中位数中心的算法坑开始），幸好有吴道长果断提醒，说我偏离方向了，我才豁然省悟。再次友情感谢吴道长(PS:吴道长是GIS圈子里面古玩玩的最好的，古玩界里面，GIS技术最好的综合性人才)。所以从今天开始，我继续把空间统计里面那些绕口的理论变成大白话写给大家。

好，继续今天的内容，其实零假设这个内容在讲P值和Z得分的时候，已经专门用一章来讲述过了，但是好几次都遇上有人问我，而后又表示前面那一章文字描述太多，没有看懂云云……所以我准备再花一章的内容，用图的方式来讲一讲。

其实要说到零假设，最早也还是由罗纳德·艾尔默·费希尔(Ronald Aylmer Fisher 1890~1962)爵士在他的《试验设计》一书中提出的，就是前两天说线性平均方向那个费希尔爵士，要说统计算法，以后他老人家会重复重复再重复的出现在我们的文章中。因为作为“现代统计学之父”的费希尔爵士，号称是“以一己之力独立创建了现代统计学的天才”（丹麦统计学家，统计学史的作者安德斯·哈尔德语）。

再贴一张这位老帅哥的相片：

零假设在统计里面，是用来干嘛的呢？

简单的说，零假设最早是为了解决瞎猜的问题。

看下面这个例子：

现在进入经典统计学里面的标准示例——丢硬币：

一个号称赌神的人，说他能够猜中丢出的硬币的正反。现在来验证一下这个赌神是否名副其实，然后我们来丢硬币，让这个赌神猜，那么如果只丢三枚硬币的话，瞎猜也能蒙对12.5%，这能够说明赌神有猜中硬币的能力么？

为了证明（或者推翻）这个赌神确实有这个能力，所以就加大样本数量，比如：我们一次性丢出10枚硬币，如下：

10枚硬币，一共有1024种组合，那么如果他是靠蒙得话，就只有不到1%的可能猜对，而在这种情况下，他还能够准确说对每一枚硬币的正反，那说明这个赌神的确有可能有猜中硬币正反的能力。

但是，是不是一定有呢？能不能消除瞎猜这个可能？继续加大硬币数量，比如扔出15枚硬币：

靠猜中的结果就变成了十万分之三了。但是不管你加多少硬币，都不可能把靠瞎蒙的机率降低到0，所以当这个机率下降到一定程度的时候，我们就说，已经拒绝了瞎猜的可能性，也就是拒绝了零假设。费希尔爵士认为，这个临界值就是5%，只要是单纯靠瞎猜的成功率，超过了5%，那么就表示拒绝了零假设，而不需要达到1%甚至。

这个5%在各行各业中都在不断应用集成和发展，空间统计也是一样。

继续看例子，比如一个城市的犯罪事件，假设没有任何的附加条件，应该是这样的：

也就是城市的每个区域，他的犯罪率应该是相同的。嗯当然也有可能是这样：

也就是说，在城市任何一个角落，都有可能发生案件，也有可能不发生，完全是随机的。这与均匀分布不同的是，均匀分布是每个角落都有且只有一例（这是几乎不可能的）。相对来说，随机发生的可能性就大很多了，有可能这个区域一起都没有，也有可能连续发生好几起。

那么作为分析师，你首先要告诉我，拿到的这份数据是不是随机的，有没有随机的可能。如果是随机的，就说明罪犯是无目的的犯罪，走哪逮哪，完全靠瞎蒙。

无目的的犯罪是最麻烦的，罪犯没有目的的瞎蒙，那么警察也只能跟着瞎蒙……

为了不瞎蒙，就要先进行数据的探索和分析了。

首先，假设罪犯就是无目的的犯罪，如果能够推翻这个假设，自然就证明了罪犯是有目的的，这样才可以进一步进行分析。

这个假设罪犯是随机犯罪的过程，就是所谓的零假设，接下去计算这个零假设的可能性，也就是前面所过的p值和Z得分，如果符合真实的罪犯犯罪数据，与我们的假设有超过5%的重合可能，那么就真有可能这些罪犯的作案过程就真有可能是随机的。

过程如下：

那么如何判定是否拒绝了零假设呢？这份数据是否随机呢？请回头去看把话空间统计第四章：P值和Z得分。

最后，总结一句话：我们做的所有计算，最后的目的就是为了推翻零假设，零假设的存在，就是为了让我们去拒绝的。

（看到这里，想到老夫就像零假设……被无数女生拒绝……遂有感而发）。

转载自：https://blog.csdn.net/allenlu2008/article/details/47950451

白话空间统计十三：零假设（补记）

You may also like...

公众号

微信群

微信小程序

白话空间统计十三：零假设（补记）

You may also like...

白话空间统计二十三回归分析番外：残差可视化

白话空间统计二十七：统计学七支柱之空间统计版本（三）信息的数量（2）

白话空间统计之二十五：空间权重矩阵（一）点数据的空间关系（1）

公众号

微信群

微信小程序