地理空间大数据:挑战与机遇

抽象

地理空间大数据是指超出当前计算系统容量的空间数据集。大数据的很大一部分实际上是地理空间数据,并且此类数据的大小每年至少以20%的速度快速增长。在本文中,我们将探讨地理空间大数据给我们带来的挑战和机遇。介绍了一些案例研究,以显示地理空间大数据分析的重要性和好处,包括节省燃料和时间,增加收入,城市规划和医疗保健。然后,我们引入新的新兴平台,以共享收集的地理空间大数据并通过移动设备跟踪人类的移动性。学术界和工业界的研究人员花费了大量的努力来提高地理空间大数据的价值,并充分利用其价值。同样,我们介绍当前针对地理空间大数据分析的研究活动,尤其是实时或动态数据的交互式分析。

关键词

地理空间大数据空间大数据复杂事件处理空间在线分析处理

1 介绍

地理空间数据一直都是大数据。在这些日子里,大数据分析地理空间数据的接收相当大的关注,让用户分析地理空间数据的巨额资金。地理空间大数据通常是指超出当前计算系统容量的空间数据集。麦肯锡全球研究所表示,个人位置数据池在2009年处于1 PB的水平,并且以每年20%的速度增长 [1]。此估算不包括来自RFID传感器的数据以及存储在私人档案中的数据。根据联合国全球地理空间信息管理计划(UN-GGIM)的估计,每天生成2.5亿亿字节的数据,其中很大一部分是位置感知的。同样,在Google中,每天大约要生成25 PB的数据,并且其中很大一部分数据属于时空数据 领域[2]。由于当今世界上越来越多的移动性,这种趋势甚至会加速。如图1所示,在印度,来自移动设备的互联网流量已经超过了台式计算机的 流量[3]

This image has an empty alt attribute; its file name is 1-s2.0-S2214579615000040-gr001.jpg

随着地理空间大数据的指数级增长,对地理空间使能内容的建模和仿真比以往任何时候都更加需要高性能计算的能力。但是,由于处理能力有限,因此在许多应用程序中很难充分利用地理空间数据的大容量或高速收集。最近,在商用计算机集群或诸如Amazon EC2 1之类的云上的分布式并行处理已变得可以广泛使用,这打破了对处理能力的现有限制。另外,大数据平台,例如Hadoop [4],Hive [5]和MongoDB [6]已经开发出这样的工具,使用户可以在分布式并行计算平台上非常轻松地实施大数据分析软件。显然,这些最新的改进为我们提供了许多对地理空间大数据进行高级分析的机会[7][8][9]。根据图2中 Garner的炒作周期,截至2012年7月,地理空间大数据分析属于虚假预期高峰期[10]

地理空间大数据或仅仅是空间大数据是社会机遇[11][12]。千年项目确定了人类面临的15个全球挑战,如图3所示 [13]。他们中的许多人都可以从地理空间大数据中受益。著名的计算机科学家 Shashi Shekhar [14] 说,这七个挑战与地理空间大数据有关,如图中的方框所示。例如,在能源方面,生态路由就是可以使用地理空间大数据节省能源的一个示例。这项技术可最大程度地减少燃油消耗,而不是行驶时间或行驶距离。为此,生态路由试图找到一条避免拥堵的路线,红灯怠速,转弯和高程变化等。与使用“最快路线”选项相比,福特研究人员告诉我们,使用“环保路线”选项可将某些车辆的油耗降低多达15%[15]。现在,在许多福特汽车中,我们都可以找到生态路线选项,如图4所示

麦肯锡全球研究院对大数据如何创新我们的世界进行了研究[16]。至于地理空间大数据,该研究说:“到2020年,使用个人位置数据每年可以为全球的消费者节省超过6,000亿美元。”人们可以通过跟踪他们的移动设备(例如智能手机)来找出用户的当前位置。这项研究提到了诸如Foursquare之类的地理社交网络服务,该服务用于查找朋友并查找附近的商店和餐馆,许多用户在其中签到并显示其当前位置[17] 。另一方面,根据这项研究,得益于基于位置的服务,可以从时间和燃料节省方面获得最大的消费者利益。通过考虑实时交通和天气数据,帮助驾驶员避免交通拥堵并推荐替代路线。可以使用驾驶员的智能手机或配备有汽车的全球定位系统(GPS)进行位置跟踪。

2 位置的力量

WPP集团首席执行官 Martin Sorrell爵士[18] 说:“定位目标是营销人员的圣杯。” 大数据分析是增强定位功能的有效途径[19]。例如,Netflix的视频租赁服务可以从分析邮政编码[20]指定的区域的租赁模式中受益。在图5中,这是这项研究的结果,Netflix在每个邮政编码中生成了2009年租金最高的50个数据。在选定的大都市地区,标题按照受欢迎程度的大致顺序列出。在特定区域中租借最多的电影与在其他区域中租借的电影明显不同。这样的模式对于向用户推荐电影非常有用。另外,可以通过分析他/她先前的痕迹记录来预测人类的未来位置。宋等。[21][22],使用300万人的手机轨迹,发现人体轨迹几乎是随机的。也就是说,在大多数情况下,人类行为不太可能显着偏离他/她的日常行为,因此是高度可预测的。对人员流动性的分析可以促进从流行病建模到交通预测和城市规划的许多应用。

可以从人类流动性分析中受益的另一个例子是直接营销。Tobler的第一条地理定律[23]支持了这一领域:“万物与其他所有事物都相关,但是远处的事物比远处的事物更相关。”该定律也通过Wikipedia的分析得到了验证[24] 。也就是说,建议靠近用户当前位置的服务或商店应该比建议较远的服务或商店更有效。位置功能已与社交网络,新闻,信息,搜索和娱乐服务相结合,据估计,截至2012年,全球有近8亿个基于位置的服务用户[25]。因此,企业愿意将钱花在定位功能上,期望获得更大的收入。Gartner预测,基于消费者的位置服务将在2015年产生135亿美元的收入,其中广告将成为主要的贡献者[19]。众所周知,指定地理位置可以将移动广告的效果提高200%以上。如今,如图6所示,当用户连接到服务时,诸如Foursquare之类的许多地理社交网络服务正在提供靠近其当前位置的那些位置。

让我们考虑一下2004年《纽约时报》报道的一个有趣的故事[26] ,它显示了地理空间数据分析的好处。弗朗西斯飓风正横越加勒比海逼近佛罗里达的大西洋海岸。沃尔玛的高管们决定采用大数据技术之一-预测分析[27] 。沃尔玛的首席信息官琳达·迪尔曼(Linda M. Dillman)要求她的员工根据几周前查理飓风降落时发生的情况来预测很快会发生什么。通过分析存储在沃尔玛的交易记录的数据仓库,公司可以预测哪些项目只是一个事件之前或之后购买(在,飓风)特定地区。居住在佛罗里达州大西洋沿岸的人们没有越来越多地购买一些与飓风直接相关的产品,例如水和闪光灯。令人惊讶的是,草莓PopTarts的销售量比飓风来临前的正常销售量增长了七倍。此外,飓风前最畅销的产品是啤酒。这种预测分析可用于减少维护仓库之间库存和运输物品的成本[28]

3 数据采集

地理空间大数据有几种形式。传统上,地理空间数据可分为三种形式:栅格数据,矢量数据和图形数据[14] 。首先,栅格数据包括通常由无人机,安全摄像机和卫星获得的地理图像。最近,军方正在利用无人机收集大量的栅格数据,而卫星不断向我们提供地球的遥感数据表1显示了一些存储在地球系统网格(ESG)门户中的气候和地球系统数据。栅格数据由数字地图服务提供,例如, 谷歌地球。数据分析人员从这些栅格数据中提取运动对象或有用特征的轨迹。代表性的用例包括生活模式挖掘和变更检测。其次,矢量数据由点,线和多边形组成。地图数据属于此表单,并且有各种数据源。例如,可以通过在Foursquare上签入来收集点,并且线和面对应于OpenStreetMap,2中的道路,这是一个协作项目,用于创建免费的可编辑世界地图。代表性用例包括热点检测和空间相关性模式。第三,图形数据主要以道路网络的形式出现。在此,边缘代表路段,节点代表交叉路口或地标。道路网络上的车辆轨迹由路段(边缘)序列表示 [29]

表1。ESG集成数据档案[2]

CMIP5DACC
赞助科学DAC美国能源部美国宇航局
资料说明40多个型号大气过程和云动力学生物地球化学动力学,FLUXNET
档案大小约6 PB约200 PB约1 TB
年开始2010年1991年1993年

随着传感器和通信技术的发展,地理空间大数据的新来源正在涌现[11][30] 。首先,传感器(或传感器网络)近来变得越来越普遍。示例是用于检测道路,电网中的交通的环路检测器,用于测量空气质量的环境传感器等。这些传感器通常通过有线或无线通信连接并形成传感器网络。其次,如今,移动设备几乎无处不在。智能电话可以非常容易地用于跟踪人员的轨迹。特别是,由于电池的容量和应用处理器的效率已显着提高,因此可以非常频繁地记录一个人的位置,并在他/她的智能手机上记录他/她的整个日常生活。例如,由三星电子开发的Android应用程序 Routrip 3记录了每个人的轨迹并以时间轴的形式显示了他/她的历史,如图7所示。。有趣的是,通过计算移动速度,还显示了运输模式(例如,乘汽车和步行)。在 7b中,蓝线代表汽车的运动,绿线代表脚的运动。

正如我们所讨论的那样,收集数据的能力不再阻碍进步和创新。最重要的问题是我们如何利用这些地理空间大数据[7][8][9]。朝着这个方向发展,已经做出了一些努力来共享收集的地理空间数据,以便其他许多研究人员可以使用该数据。Movebank 4是一个免费的在线基础架构,旨在帮助研究人员管理,共享,分析和存档动物运动数据,该数据已由马克斯·普朗克鸟类研究所主持。Movebank数据库的设计主要是针对包括个体动物连续位置的数据集,通常称为跟踪数据。截至2013年11月,MoveBank的当前状态如下:970项研究,超过250个参与者,335个分类单元,41,170轨道和6100万个位置。图8a显示了Movebank的主页,右上角的小地图显示了到目前为止收集数据的位置。如图8b所示,通过在地图上选择一个圆,人们可以研究和下载数据集。

与传统大数据一样,从新兴资源中收集的地理空间数据具有3V的属性-体积,速度和多样性。尤其是,这些新型的地理空间数据正在以极高的速度连续接收。因此,属性“速度”应被更重要地考虑。对于这些数据,我们需要动态查看传入的数据并及时做出决策,而不是将它们存储在数据仓库中并在以后进行批量分析。也就是说,我们需要更多地关注地理空间大数据的交互式动态分析,以便更好地支持这一新趋势。

4 持续的努力

我们最近在韩国政府国土交通大臣的支持下启动了一项有关空间大数据的新研究项目。该项目计划为期五年,其成果将被纳入面向韩国公民的公共服务中。图9 显示了我们正在计划的整个系统架构。该系统由三层组成:地理空间大数据集成和管理,地理空间大数据分析以及地理空间大数据服务平台。第一层负责快速存储,检索,索引和搜索地理空间大数据。第二层负责对数据执行数据分析。该层进一步分解为用于实时或动态数据的交互式分析模块和用于静态或存档数据的批处理模块。对于交互式分析,我们确定了两个主要组件:复杂事件处理(CEP)和空间在线分析处理(SOLAP)。

图10 更详细地显示了交互式分析模块的工作方式。地理空间大数据来自各种来源,包括卫星,无人机,车辆,地理社交网络服务,移动设备和相机。一组商用计算机接收这些数据,并并行执行过滤和预处理。然后,由群集生成的数据流将传播到空间CEP引擎。使用连续查询语言(CQL)定义要检测的复杂事件,并将连续查询存储在规则数据库中。空间CEP引擎处理多个数据流上的多个连续查询在飞行中。如果检测到复杂事件,则将结果通知给用户。另一方面,在提取,转换和加载(ETL)之后,传入的数据将存储在地理空间数据仓库中。空间OLAP引擎可以通过在地理空间数据仓库上执行若干OLAP操作(例如上滚,下钻和聚合)来执行进一步的分析。特别地,结果在各种地图上可视化,使得用户可以容易地掌握每个操作的结果。用户可能会继续执行其他操作,直到他/她获得了预期的知识。

4.1 复杂事件处理

事件处理是一种跟踪和分析有关事件(正在发生的事情)的数据流以便从事件中得出结论的方法[32]复杂事件处理(CEP)是涉及多个数据流的事件处理,以推断暗示更复杂情况的事件或模式[33]。最具代表性的产品包括Oracle CEP [34]和Esper。5由于CEP引擎本质上是为支持高速数据流而设计的,因此它们可以在某种程度上支持大数据。例如,Esper处理500,000在基于Intel的2 GHz双CPU硬件上每秒发生的事件数平均为3毫秒以下[35] 。但是,大多数现有引擎不支持分布式并行处理,这是提高可伸缩性和降低等待时间所必需的。据我们所知,唯一支持分布式并行处理的产品是FUJITSU的Interstage大数据CEP服务器。另外,现有引擎不支持地理空间特征。也就是说,用于定义复杂事件的CQL无法指定时空条件,例如最近邻居和范围条件。因此,我们计划扩展这些现有的CEP引擎,以合并地理空间功能并进一步改善可伸缩性和延迟。

4.2 空间在线分析处理

Spatial OLAP 是一个可视化平台,可快速,轻松地分析时空数据以及以多维方式浏览数据,并且在地图显示以及表格和图表显示中提供聚合级别。空间OLAP的概念试图将地理信息系统(GIS)和OLAP结合在一起,是在1990年代后期发明的。但是,即使发布了一些研究原型,也从未有任何商业产品广泛可用。一个著名的研究原型是JMap,6,但自2009年11月以来就不再维护。据我们所知,目前唯一活跃的产品是GeoMondrian。7这是一个开源的SOLAP引擎,,是Mondrian OLAP引擎的具有空间功能的版本。由于GeoMondrian基本上将PostGIS用作其数据仓库,因此8在支持地理空间“大”数据方面存在局限性。我们的方法是首先扩展Hadoop的地理空间数据,然后再利用Spatial Hadoop作为我们的基本平台。已经进行了一些研究工作来扩展原始Hadoop的地理空间数据,包括明尼苏达大学的SpatialHadoop 9 [36]。据我们所知,没有SOLAP引擎支持真正的大数据,我们需要朝着这个方向努力。

5 结论

在本文中,我们讨论了地理空间大数据给我们带来的挑战和机遇。许多证据表明,大数据的很大一部分实际上是地理空间大数据。通过利用嵌入在地理空间大数据中的位置功能,我们可以创新我们的日常生活和业务。介绍了一些案例以说明地理空间大数据的真正好处。由于传感器和通信技术的进步,地理空间大数据的收集变得非常容易。一些机构正致力于开发用于共享收集的数据的平台。最近的地理空间大数据通常以很高的速度生成。在我们的新研究项目中,我们专注于实时或动态数据的交互式分析。更详细地说

致谢

这项研究名为 “地理空间大数据管理,分析和服务平台技术开发”,是由韩国土地,基础设施和交通运输部MOLIT支持的,并由 KAIA(韩国原子能机构)监督的国家空间信息研究计划基础架构技术进步(14NSIP-B091011-01)。

参考文献

[1]A. Dasgupta大数据:分析的未来http://www.geospatialworld.net/Magazine/MArticleView.aspx?aid=30512(2013年4月)地理空间世界谷歌学术[2]RR Vatsavai ,A. 甘古利,五 Chandola ,A. Stefanidis ,S. Klasky ,S. 谢卡尔在大空间数据的时代,时空数据挖掘:算法和应用第二届ACM国际SIGSPATIAL研讨会上分析了大地理空间数据程序,雷东多比奇,CA (2012 ),第1 – 10查看ScopusGoogle Scholar中的记录[3]M. Meeker2012 KPCB互联网趋势年底更新http://www.slideshare.net/kleinerperkins/2012-kpcb-internet-trends-yearend-update(2012年12月)谷歌学术[4]T. WhiteHadoop:权威指南(第三版),雅虎出版社(2012 )谷歌学术[5]A. Thusoo ,JS 萨尔马,N. 耆那,Z. 邵,P. Chakka ,S. 安东尼,H. 柳,P. 威科夫,R. Murthyin蜂巢:在地图减少框架仓储溶液程序 VLDB天赋。,2 (2 )(2009 ),第1626年- 1629年ScopusGoogle Scholar中的CrossRef查看记录[6]E. Plugge ,P. Membrey ,T. 霍金斯权威指南的MongoDB:在NoSQL数据库云和桌面计算(第1版),Apress (2010年)谷歌学术[7]J.-G. 李,J. 汉,K.-Y. Whang轨迹聚类:分区和组框架2007年数据管理ACM SIGMOD国际会议论文集,北京,中国(2007年),第593 – 604ScopusGoogle Scholar中的CrossRef查看记录[8]J.-G. 李,J. 汉,十, 李异常轨迹检测:一分区和检测框架第24届国际会议上的数据工程学报,坎昆,墨西哥(2008 ),第140 – 149ScopusGoogle Scholar中的CrossRef查看记录[9]J.-G. 李,J. 汉,十, 李,H。 冈萨雷斯TraClass:轨迹分类采用分级基于区域和轨迹的聚类程序 VLDB天赋。,1 (1 )(2008 ),第1081 – 1094ScopusGoogle Scholar中的CrossRef查看记录[10]A.大数据的Lapkin炒作周期,2012年http://www.gartner.com/document/2100215(2012七月)谷歌学术[11]N. 鹰,K. 格林现实挖掘:利用大数据来设计一个更好的世界(第1版),麻省理工学院出版社(2014 )谷歌学术[12]五, 迈耶-舍恩伯格,K. Cukier大数据:一个革命,将改变我们的生活,工作和思考伊曼·多兰/霍顿·米夫林·哈科特(2014 )谷歌学术[13]M. Marien全球人类挑战http://www.millennium-project.org/millennium/challenges.html访问时间:2014-08-30谷歌学术[14]S. Shekhar空间大数据挑战在ARO / NSF关于大数据的大数据研讨会上的主题演讲:应用程序和算法,北卡罗来纳州达勒姆(2012 )谷歌学术[15]P. Valdes-Dapena节省天然气的GPS系统http://money.cnn.com/2011/03/03/autos/navigation_gps_fuel_economy/(2011年3月)CNN钱谷歌学术[16]S. 劳尔的新方法来利用原始数据可能会带来创新的激增,一项研究说,http://www.nytimes.com/2011/05/13/technology/13data.html?_r=0(2011年5月)纽约时报谷歌学术[17]M. 蔡,J.-G. 李,G. Gweon ,D. 金格劳科斯:利用群众的智慧在移动环境中基于位置的查询第八届国际AAAI会议的博客和社交媒体程序,密歇根州安阿伯(2014 ),第61 – 70查看ScopusGoogle Scholar中的记录[18]SM Sorrell应用程序的力量2011 GSMA世界移动通信大会(2011年2月)http://www.youtube.com/watch?v=5gfTQUq0mHw谷歌学术[19]G. Percivall位置的力量http://www.opengeospatial.org/blog/1817(2013年4月)开放地理空间联盟谷歌学术[20]M. 布洛赫,A. 考克斯,JC 麦金蒂,K. Quealy甲不期而遇Netflix的队列http://www.nytimes.com/interactive/2010/01/10/nyregion/20100110-netflix-map.html(2010年1月)纽约时报谷歌学术[21]C. 宋,Z. 曲,N. Blumm ,A.-L. 巴拉巴西(Barabasi)人口流动可预测性的极限科学,327 (5968 )(2010 ),第1018 – 1021ScopusGoogle Scholar中的CrossRef查看记录[22]C. Song ,T. Koren ,P. Wang ,A.-L. 巴拉巴西(Barabasi)对人员流动的缩放属性建模纳特 物理 ,6 (10 )(2010 ),第818 – 823ScopusGoogle Scholar中的CrossRef查看记录[23]W. Tobler一部模拟底特律地区城市发展的电脑电影经济。地理。,46 (2 )(1970 ),第234 – 240ScopusGoogle Scholar中的CrossRef查看记录[24]B. 赫克特,E. 莫克斯雷托布勒的TB级:在世界的知识大规模,域中立表示评估第一定律第九届国际会议的空间信息理论论文集,阿伯Wrac’h,法国(2009年),第88 – 105ScopusGoogle Scholar中的CrossRef查看记录[25]N. BrandweinerGartner概述了到2014年将成为主流的移动服务http://www.mycustomer.com/topic/technology/gartner-outlines-mobile-services-reach-mainstream-2014/158276(2012年10月)我的顾客谷歌学术[26]CL Hays沃尔玛对顾客习惯的了解http://www.nytimes.com/2004/11/14/business/yourmoney/14wal.html?_r=0(2004年11月)纽约时报谷歌学术[27]E. 西格尔,TH 达文波特预测分析:电源预测谁将点击,购买,撒谎,或死(第1版),威利(2013 )谷歌学术[28]F. Provost 和T. Fawcett商业数据科学:您需要了解的有关数据挖掘和数据分析思维的知识(第1版),O’Reilly Media (2013 )谷歌学术[29]J.-G. 李,J. 汉,十, 李,H. 程对道路网络移动轨迹分类挖掘判别模式IEEE Trans。知道 数据工程师 ,23 (5 )(2011 ),第713 – 726ScopusGoogle Scholar中的CrossRef查看记录[30]S. Madden着眼于空间数据:移动系统的观点在主题演讲中对地理信息系统进展20 ACM SIGSPATIAL国际会议,雷东多比奇,CA (2012 )谷歌学术[31]Y. 金,等。基于空间信息的大数据分析和使用技术开发报告科技 代表韩国基础设施技术振兴局(2013年11月)谷歌学术[32]DC Luckham业务事件处理:组织实时企业(第1版),威利(2011 )谷歌学术[33]I. Schmerken解读有关复杂事件处理的神话http://www.wallstreetandtech.com/latency/deciphering-the-myths-around-complex-event-processing/d/d-id/1259489(2008年5月)信息周谷歌学术[34]Oracle产品管理和开发团队Oracle复杂的事件处理:现实世界中的轻量级模块化应用程序事件流处理科技 代表甲骨文公司(2009年6月)http://www.oracle.com/technetwork/middleware/complex-event-processing/overview/oracle-37.pdf谷歌学术[35]Esper Team ,EsperTech Inc.在Esper中的性能参考科技 代表EsperTech Inc. (2012年4月)http://esper.codehaus.org/esper-4.6.0/doc/reference/zh-CN/html/performance.html谷歌学术[36]A. Eldawy ,MF Mokbel展示SpatailHadoop:高效的空间数据mapreduce框架程序 VLDB天赋。,6 (12 )(2013 ),第1230 – 1233ScopusGoogle Scholar中的CrossRef查看记录

商业版本可以支持Oracle Spatial,Microsoft SQL Server和MySQL。9

转载自: https://www.sciencedirect.com/science/article/pii/S2214579615000040

You may also like...

发表评论

您的电子邮箱地址不会被公开。

CAPTCHAis initialing...