白话空间统计二十三回归分析番外:残差可视化

对于可视化来说,GIS有先天的优势……俺们天生就是画地图的,不过首先要限于可空间化的情况下……如果要分析的数据非空间数据,结果也没有空间化的可能,那么就凉拌了。

不过大家放心啦,作为微信平台里面专门讲空间分析和空间统计的公众号:虾神daxialu,老夫是不会让这种事情发生的……所以今天虽然还是讲回归分析,那么我也要弄成带有空间数据的回归可视化。

首先,还是用山东的数据吧……首先挑选了五个维度,回归因变量选择财政收入,自变量选择工业总产值,消费品零售额,总出口以及固定资产投资,然后进行一元线性回归:

进行回归之后,发现全是正向影响因素,然后进行一下VIF检验:

根据经验公式,超过11的话,就表示存在严重的多重共线性,而这里计算出来的都在4一下,表示选择的这些变量之间不存在多重共线性,回归的结果是可信的。

好了,上面的计算部分有不是今天的重点,下面开始对回归分析的结果进行可视化。

首先进行四个自变量系数的可视化,一般来说,系数越大的,表示贡献度越大,可视化的方式用R语言里面的ggplot2这个神包:

四个维度里面工业总产值对财政收入的贡献度最低……总出口的贡献度最高,从这里可以看出来,我国所谓的经济三架马,投资、消费、出口,出口效果果然还是最好的……而工业总产值,对地方财政的收入,基本呵呵呵呵……

下面来看看另外一个重要数据,就是残差,先进性残差的图表可视化:

好吧……山东137个县区,平铺出来之后,不知道大家是啥感觉,反正虾神看完之后是这样的:

所以,现在可以看出来,使用空间可视化的重要了……下面进入空间可视化阶段……什么?你说用ArcGIS,好吧,虽然这个是虾神的老本行,但是这次我想先用R语言来把这事干了。(另外,这篇文章能算leaflet的番外篇么)。

先看看效果:

虽然正向残差少于负项残差(正向62个,负向75个),但是因为正向部分的极差大于负向,所以整个地图的主色调都是偏向绿色。现在来修正一下整个地图的风格。

我们要看残差的话,不管是正向残差还是负向残差,都是残差,所以我们先进性一个绝对值化,把所有数据都取绝对值,那么整个地图的风格就变成这样了:

这样看来,大部分的残差,都比较少(当然少啊……R-squared都到了0.8+ 了),也就说明这个回归分析的可信度还是挺高的,且在地域上的差异不是特别大。

另外,在看看特别红的那个部分……又是虾神最喜欢的格林兰(greenland)……当然,我们更习惯叫它青岛。再次回到最初分析数据的维度:用工业总产值、零售额、固定资产和出口来对财政收入进行回归,贡献系数最大的是进出口,我大格林兰,额,还是叫青岛吧……我大青岛作为世界知名港口城市(2015年世界排名第八),出口量自然不是吹的,但是为什么残差最大的也在青岛了,仔细看看,最红这个地方,是青岛市的崂山区……好吧,回头来看看数据:

百亿的财政收入,贡献系数最大的出口,只有49亿……所以才会出现正向残差最大(正向残差表示预测值太低了)。那么从数据上可以得到这样一个结论:崂山区的财政收入,有其他因素的支持。(猜也猜出来了啊……作为国内旅游圣地的崂山,自然第三产业里面最赚钱的旅游啊!)

如果有用过ArcGIS 中空间统计工具的OLS工具的话, 发现分析完成了之后会给出一个与标准差的倍数对比的可视化图出来(以标准差为基准,离标准差越远,表示残差越大),从这种可视化结果,可以更清晰的看出残差的分布。那么下面用R来实现这个功能:

分析完之后,发现负残差最大的两个城市,分别是烟台市的福山区和淄博市的张店区:

负向残差表示预测值太高,实际值远远小于预测值(高估),来看看这两个城市的数据:

先看张店区,只有15亿的出口,但是有70多亿的财政收入,也就说明,要么整体系数中出口的系数,对张店区的贡献估计不对,要么像崂山一样,有其他的因素。

然后看福山区:153亿的出口……好吧,几乎除青岛以外,在山东一骑绝尘了,但是财政收入也只有109亿,说明有其他的负向因素影响了他的财政收入。

正残差最大的是青岛市的崂山区:

那么这些漂移太大的地区,就是所谓的分析的蛮点或者说异常区域,也有可能是我们下面需要重点研究的区域,如何进一步研究呢?那就要继续所谓的地理加权回归了。

待续未完。

最后,还是一样,需要数据还脚本的,请发关注公众号,获取邮箱,并且发送一封有自我简介的邮件索取。(能够转发推广,更是功德无量……不愿意转发的,发个红包,虾神也不介意……)



转载自:https://blog.csdn.net/allenlu2008/article/details/66968858

You may also like...