GeoDa软件–尽善尽美的数据探索

Geoda Image

使用**GeoDa**探索您的**GeoDa** 很有趣。

麻省理工学院、芝加哥和亚利桑那大学使用GeoDa是因为它有强大的空间数据分析、地理可视化和地质统计学工具。

所以我们也这么做了。

这是从Spatial @ UChicago`how to download GeoDa software <https://spatial.uchicago.edu/software>`__ 的方法。现在,让我们来看看一些新的和改进的GeoDa中的关键功能。

GeoDa入门

GeoDa有一个直观的界面,可以方便地添加多种文件格式,如shapefile、GeoJSON、KML、SQLite和table格式(CSV, XLS and DBF)。

为了了解您的地理数据在空间中的关系,GeoDa提供了来自Carto和Nokia的各种基础地图。

如下图所示,这4个工具用于加载数据,另存为GeoDa项目(GDA),关闭应用程序并打开属性数据。

geoda menu

与任何GIS软件类似,您可以自由调整列的大小和移动列。您可以以不同的格式联接表、查询观察结果和导出数据。

没什么好说的,但我们是如何直接找到吉田使用。界面是现代的,你可以在分析中很快弄脏你的手。

GeoDa Attribute Table

阅读更多: 10 Free GIS Data Sources: Best Global Raster and Vector Datasets

地理可视化与数据分类

这是GeoDa的特色之一——它的地理可视化工具。任何人都可以通过主题地图、地图和地图电影等形式的可视化手段获得对数据的洞察。

GeoDa Thematic Maps

实际上,在数据分类方面,您可以获得比QGIS和ArcGIS更多的选项。**地图和费率**下拉菜单为您提供了*大量*的数据分类方式。

  • 无主题地图 –简单的单色地图

  • 创建分位数图 –排列组,使其数量相同。

  • 百分位图 –以不同百分比(99%)隐藏数据

  • 方框图 –一个四分位数的地图,其中离群值的阴影不同。

  • 标准偏差图 –每个标准偏差都成为一个等级。

  • 唯一值映射 –将值唯一地分组到类别中。

  • 自然断裂图 –排列每个分组,使每个类的差异更小。

  • 等间隔图 –将班级分成相等的小组。

  • 费率计算图 –使用空间权重对数据进行分类。

阅读更多: Choropleth Maps – A Guide to Data Classification

If you don’t want to use these types of data classification methods, then GeoDa has a Category Editor tool for you to interactively edit custom breaks in the data. The neat thing about is how it interactively generates a histogram as you change the dividing lines in your data.

geoda category editor

制图工具用适当大小的圆来表示变量。例如,这里我们看到美国的人口集群。

dorling cartogram

这也被称为多林漫画。然而,这些类型的地图的缺点是没有保持质心和形状。这意味着读者可能难以理解地图中的特征。如果我不告诉你的话,你可能根本不知道这代表了美国的人口!

阅读更多: Cartogram Maps: Data Visualization with Exaggeration

数据勘探分析

在本节中,我们将使用圣路易斯地区的县凶杀计数和比率来寻找一些统计关系。

我们将研究的三个主要变量是:

  • HR 848 -每100000人的谋杀率

  • PE87 -人均警察支出

  • RDAC85 资源匮乏/富裕综合变量(生活在贫困线以下的家庭百分比,家庭收入中位数)

阅读更多: University of Chicago Sample Data Sets (很好的样本数据)

直方图

当您查看这个警察支出的直方图时,您会看到各个县的支出方式分配相对相等。

geoda histogram1

但是当你看凶杀率的柱状图时,它是正偏的。这意味着大部分数据的谋杀率较低,但有些县的谋杀率极高。

geoda histogram2

方框图

这个方框图显示每10万人中的杀人人数大约为3.7人。然而,有两个县的谋杀率确实很高。这两个县分别是圣路易斯市(36.0)和圣克莱尔(20.2)。

geoda box plot

这两个观察结果在哪里?在标准偏差类型的地图中,我们用红色标出两个县的谋杀率高于正常水平。如你所见,他们有一个惊人的3个标准偏差大于平均杀人率。

geoda standard deviation

散点图

什么是了解变量如何相互关联的最佳方法?例如,资源剥夺/富裕复合变量与凶杀率有何关系?

好吧,我们可以把每个变量都放在一个图的x轴和y轴上,然后看看它是什么样子的。这叫做散点图。

geoda scatterplot

线性回归曲线(红色直线)给出的r平方值为0.276。另一条红色曲线是一条较低(局部加权散点图更平滑)的曲线,适合这两个变量之间的平滑曲线。

这到底是什么意思?

这意味着,根据这78个观察结果,资源剥夺占凶杀率方差的27.6%。当r平方为零的模型表明0%的模型不能解释其平均值周围响应数据的变化性时……这确实表明这两个变量之间存在部分关系(资源剥夺和谋杀率)。

但这并不是以吉田结束的。如果你想知道一堆散点图是如何相互关联的,那么就用散点图矩阵来选择你内心想要的所有变量。

geoda scatterplot matrix

三维散点图

您将必须为Geoda的3D散点图真正加个思路。我至少做了。该工具的作用是像这样在三维空间中绘制出三个独立的变量。

geoda 3d scatterplot

它的好处在于如何将数据点投影到xy轴、xz轴或zy轴。当您通过旋转三维散点图看到数据在每个轴上的外观时。此时,您将开始了解数据点如何在三维空间中暂停。

气泡图

对于气泡图,选择X和Y轴变量。此外,还可以选择气泡大小和颜色的变量。这使您能够以一种巧妙的方式可视化四个变量。

注意大小变量,因为这确实会影响图形。您可以右键单击图表并将气泡大小从小调整为大。我们在这里保持简单,并使用谋杀率作为大小。正如所料,这两个红色大气泡分别是圣路易斯城和圣克莱尔。

geoda bubble chart

平行坐标图

认识我最喜欢的新图表。

在一个平行坐标图中,每一条线对应一个县,绘制了谋杀率、警察开支和资源剥夺图。每个尺寸对应一个水平轴,每个数据元素显示为一系列沿着尺寸/轴的连接点。

最右边的两条红线是谋杀率最高的县(圣路易斯市和圣克莱尔)。位于PCP右侧的一条红线代表圣路易斯市。圣路易斯市不仅谋杀率最高,而且警察花费的钱最多,资源匮乏程度最高。这个图真的把这三个变量放在了透视图中。

geoda paralllel coordinate plot

总而言之,GeoDa中的数据探索工具让我完全震惊。

让我们看看如何使用更多基于地理统计的工具。

在地理空间中寻找模式

此菜单中的主要区别在于如何在 地理空间 . 虽然柱状图、散点图和气泡图只是简单地分析数据,但接下来的几个工具可以理解县和属性在地理上是如何相互关联的。

这一切都是从设置权重管理器中的连续性开始的。我将边界设置为与女王或鲁克相邻的人直接接触。这会影响连接到每个县的邻居的数量。

这是显示**女王连接**和邻居数量的直方图:

geoda queen connectivity

这是一个直方图,显示了**rook connectivity**和邻居数量:

geoda rook connectivity

如此相似,但不同。Geoda 为您提供了一张地图,以交互方式查看rook和queen如何与其邻居连接。喜欢这个功能。

geoda number neighbors

Moran散点图

因为我们已经设置了县之间的关系,所以Moran散点图将把这一点考虑进去。

当Moan的I接近-1时,会发生*负*空间自相关。棋盘格是一个示例,其中Moran的I为-1,因为相异的值彼此相邻。

Moran I值为0通常表示没有自相关。在这种情况下,Moran的I是0.16,这意味着凶杀率并不是那么集中在一起。

geoda moran i plot

空间自相关

当您选择一个Lisa集群地图时,它将生成一个显示一个重要的本地Moran统计的Choropleth地图。亮红色表示高-高,这表明聚集的相似值很高。蓝色县的低值表明低值聚集在一起。

geoda cluster map

其余的灰色阴影表示没有显著的关系。而高-低和低-高位置表示空间异常值。

最后,GeoDa产生四个显著性水平–p |geoda lisa显著性p值|

GeoDa也可以产生单变量、差分和局部Moran的I和EB Rate。

局部G聚类图

最后一个工具是varianino,用于查看数据是如何集群的。在圣路易斯的中心,谋杀率居高不下集中在中间。然而,在东北部,谋杀率要低得多。

geoda gi cluster

想象一下这对房地产行业和那些想搬到圣路易斯的人有多有用。在这种情况下,*G* 聚类图*生成相同的结果。

空间回归

如果您在一个城市拥有凶杀率,则可以使用空间回归来了解犯罪模式背后的因素。为什么凶杀率集中在圣路易斯市中心?是警察问题吗?资源匮乏可以解释凶杀的地点吗?

下面是回归模型中常用的一些术语。

  • 因变量(Y) 你想预测什么?(凶杀率地点)

  • 自变量(X) :解释因变量的解释变量。(收入、教育等)

  • β系数:反映解释变量和因变量之间关系的权重。

  • 剩余 :模型未解释的值

在我们的简单模型中,凶杀率是因变量。同时,我们试图用警费和资源匮乏来解释高、低的谋杀率。

geoda regression menu

回归报告

我们的输出表如下:

geoda regression report

当你用我们回归模型中的每个系数来代替时,这意味着资源匮乏程度更高、警察支出更高的地区将在数学上产生谋杀率。估计的标准误差是对预测精度的度量。在回归线中,估计的标准误差越小,预测就越准确。而t统计量则是系数除以其标准误差。

另一个需要记住的统计是Jarque-Bera统计,它指出残差(观察到的因变量值减去预测值)是否是正态分布的。当您将这些残差放入柱状图中时,零假设是它应该类似于钟形曲线。

此外,当多元回归模型中的两个或多个预测变量高度相关时,输出表还允许您测试多重共线性。计算出的Moran I决定回归残差是否是空间随机的(空间自相关)。

GeoDa的其他选择是空间滞后模型和空间误差模型的最大似然估计。

**阅读更多:**Spatial Autocorrelation and Moran’s I in GIS

GeoDa最后的想法

在GeoDa中,您会经历很多**啊哈时刻**。它不仅是对非GIS用户的空间分析和统计信息的简要介绍,而且对那些试图学习统计信息的用户也非常有用。

Luc Anselin开始将GeoDa作为ArcView 3.0的扩展。由于它的普及,它被重新设计成自己的开源数据探索工具。

虽然不一定是您的原型全面的GIS包,但GeoDa拥有一系列令人兴奋的分析和地理可视化工具,用于经济、健康、房地产等行业。

你有没有试过用GeoDa测试你的地质统计学?请在下面的评论部分告诉我们您对它的看法。