空间数据挖掘与空间大数据的探索与思考（四）

by giser · 2019-03-26

讲完了空间统计学和数据中心，我来讲一讲业界很多政府官员以及我对大数据的认识和理解，因为我现在在ESRI中国主要做大数据，他们对大数据有一些什么样的认知呢？
第一种认识，数据量大就是大数据，这是我去交流的时候很多用户提到的，动辄说大数据，就是我们有XX亿条，XXTB数据，所以我们就是大数据。还有说我们要做大数据项目，先要弄够多少多少量的数据，才行。

第二种认识是不用传统数据库就是大数据，很多单位认为大数据不能用传统数据库存储，用了数据库就不能叫大数据。

第三种认识是培训届的一个认识，大家只要在互联网上搜大数据培训，那么马上会跳出来两个名词——Hadoop和Spark，他们认为只要用了Hadoop和Spark就是大数据。

第四种认识是人多力量大——多台机器并行就是大数据，这也是我们一些人的传统思维。

说到人多力量大，实际上我跟一些写小说的朋友们做过一个很有趣的评估，说一个人若有两个人的综合素质，是不是只可能打得过两个人？其实不是的，在格斗界有句话，叫做“高上一点，就高到无边”，如果一个人有普通人的两倍综合素质，实际上一两百个人，他都全部杀完也就是个时间问题。为什么？如果我有你的两倍综合素质，也就说明你所有动作在我这里都是放慢二分之一的慢动作，我所有的力量都是你的两倍，你打在我身上跟挠痒痒一样，我打你一拳你就飞了。依此类推，如果一个人有普通人十倍的力量，用小说上的一句话来说就是可以一人屠军、一人灭国。

所以说，很多台机器并用就是大数据吗？在某些运算的时候，一百台机器一起也不如一台有两倍或者三倍性能的机器。大家知道，中国战斗机的发动机马力不够，有没有任何一个军方设计师会想装一个发动机马力不够，装四个发动机就可以了？我估计没有哪个设计师敢这样做。在现实生活中我经常碰到有些领导提出，我们的数据算一下要两个小时，你能不能在两分钟之内给我算完？要多少台机器你说，给你100台，够不够？我回答是我从北京坐火车到武汉要四个小时，我给你买四张火车票你一个小时把我送到武汉去可以吗？

所以说并行不是万能的。以上是我经常遇到的四个对大数据的错误认知。

实际上对大数据的认知已经超出了科技的范畴，更多地进入一个哲学层面，这里我列出了大数据的11个V（见下图）。我们知道美国人写文章和中国人写八股文很像，中国人很喜欢写一二三四、甲乙丙丁，美国人喜欢写3W4C5H，这11个V也是美国人提出来的。

实际上很早以前，密西根大学有两位学者就提出了大数据与传统数据的不同，他们给出了十个不同的论断，分别是目标、位置、数据结构、数据准备、数据生命周期、衡量、可重复性、成本、内省、分析。我解释一下最简单的位置，这个位置指的是数据存放的位置。谈大数据大家都会谈到微博，大家知道发出的一条微博存放在哪台服务器的哪个硬盘里吗？不知道。按照传统方式，做数据分析必须要知道物理路径。现在要分析新浪微博的存放位置，我们用URL、一个统一资源定位符就可以获取到数据。不需要知道数据的物理存放位置在什么地方，你只需要利用资源定位符获取到它，包括未来的数据中心的概念也是这样，我们通过各种资源定位符获取数据，而不需要知道它存在哪张盘的文件夹下。

（待续未完）

转载自：https://blog.csdn.net/allenlu2008/article/details/79603476

空间数据挖掘与空间大数据的探索与思考（四）

You may also like...

公众号

微信群

微信小程序

空间数据挖掘与空间大数据的探索与思考（四）

You may also like...

空间数据挖掘与空间大数据的探索与思考（六）

大数据时代的GIS软件技术发展 Development of GIS Software Technology in the Era of Big Data

空间数据挖掘与空间大数据的探索与思考（二）

公众号

微信群

微信小程序