白话空间统计二十三:回归分析番外-ArcGIS中的OLS(三)


上一节把OLS最重要的一个表格解释完了,下面我们继续来解释OLS结果的其他内容。

结果报告的第三页,是对因变量与自变量相关性的一个检测:

会根据每组变量,形成一个自变量的分布柱状图(第一排)以及自变量和因变量组成的散点和回归图(第二排)。

首先要注意的是,OLS对自变量的分布是不是正态的,并不关心,但是如果Jarque-Bera统计量的P值指示,结果出现了偏差(也就是说残差的分布不平衡),那么说明自变量的分布,可能影响到了回归模型,所以这种情况下,我们可以尝试对某些偏差严重的自变量进行一些变换,然后重新建模验证(比如进行Log变换等)。

散点图表示是自变量与因变量之间的相关性,回归线表示相关度,当然,ArcGIS软件本身没有给出相关系数,如果要求的话,可以通过 R语言或者Python来求,具体看文章最后。

理论上,最回归分析,每个自变量应该都要与因变量有相关性,如果某组出现了非线性,则表示此自变量无法对因变量进行解释,要么剔除掉,要么需要进行变换。

第四页是残差分布结果柱状图:

如果呈现正态分布,则表示此模型的的表现比较优异,如果出现了严重的偏态,那么说明模型应该是有问题。注意:图上的蓝色正态区县和数据无关,它的作用是标准标尺,柱状图才是数据,如果柱状图和曲线趋势一样,就表示正态,否则就不正态。为了说明这个问题,我弄两个无关的变量来做一个回归,大家就可以看出来了:

最后一个表格,是因变量的预测值与残差值的分布图:

从理论上来说,预测值和残差值应该没有任何的相关性,因为任何预测和残差的情况的产生都是随机的,这样才是最优,如果出现了相关性,就表示某些残差的出现是有规律的,这样就表示模型出现了偏差。

比如下面这个:(也就是上面用面积回归财政收入的模型)

到此,OLS的结果就解释完了。实际上这整个解释结果的数据,都已经被写入到了生成的要素类中,如果需要的话,可以通过Python或者R语言自行可视化出来。下面放出使用seaborn包的Python版本:

环境说明:Python 3.5 + Jupyter + pandas +seaborn + arcpy(这里我的juypter安装在ArcGIS Pro环境里面,所以我就直接用了,arcpy主要用于读取要素类数据)

实现如下:

到此OLS的结果解释就已经说完了,具体如何在实际应用或者论文中去使用,大家可以自行摸索,如果以后有时间(不懒)的话,可以考虑专门讲讲案例分析。



转载自:https://blog.csdn.net/allenlu2008/article/details/70456024

You may also like...