Choropleth地图-数据分类指南

Choropleth Maps - Data Classification

等间距,分位数,自然断裂,漂亮断裂。每种数据分类方法生成不同的脊索面图。我们解释了使用每种choropleth地图的优缺点。

如何利用数据分类制作Choropleth地图

你已经准备好了你的定量数据。鼠标悬停在“分类”上,等待生成多色的choropleth地图。

但你不禁想知道你是否选择了正确的数据分类模式。

Equal intervals 分位数,自然休息,漂亮休息-有很多选择。但它们之间有什么区别呢?

这篇文章将帮助您了解存在**choropleth地图**的类型,以及为您的地图选择哪一个。

选择课程数量

首先,必须基于多个类聚合数据。当你有更多的类,你会得到更多的变化,有时会使它更难分离阴影。如果你想测试不同的底纹, ColorBrewer 有颜色建议工具。

例如,这里是 10个班

10 classes

而类越少,类之间的分离就越少,例如 5个等级 下面。

5 classes

毕竟,您决定使用的类的数量实际上取决于映射的目的。

选择数据分类方法

其次,您必须决定如何对数据进行分类。换一种说法,数据分类用边界来安排数据,以分离类。您可以使用相等的间隔模式来分隔类:

Equal Intervals Histogram

或者,您可以选择一种分位数类型的分类器,它在其中以不同的方式排列数据(更多内容见下文)。

Quantile Histogram

每种数据分类技术都会生成唯一的**choropleth图**。但是它们都给地图阅读器描绘了一个不同的故事。你必须意识到的一件事是,您在每个Choropleth映射中使用的是**相同数据**,但是真正的变化是**如何对数据进行分类**。

我们的示例数据

你必须认识到的最重要的一点是,对于我们创建的每一幅choropleth地图,我们都使用**相同的数据**。改变的是我们如何对数据进行分类。

在本例中,我们计算国家名称中的字母数。例如:

  • 马里、古巴、秘鲁等国 四个字母的国家 .

  • 然而,波斯尼亚和黑塞哥维那有22个字符。

如果您打印出4到22个字符,它将有很多颜色。

例如,四个字母的国家是最浅的绿色阴影。随着字母数的增加,阴影会变暗。

Choropleth Map

按国家/地区字符数划分的Choropleth地图阴影

哪个国家属于哪个集团?很难说。

所以这就是我们使用数据分类的原因。当我们按类分组时,阴影会减少,我们会按组聚合数据。

最后,问题是我们如何定义这些类边界或容器?换句话说,我们如何 对数据进行分类 分组?

首先,让我们尝试将类划分为等距分组,如下面的等距分组,看看会发生什么。

等间隔数据分类

等距切割和干燥。它真正的作用是 将类分成相等的组

Equal Intervals Histogram

  • 1班 :4-8(113个国家有4、5、6、7或8个字母)

  • 2班 :8–12(41)

  • 3班 :12–16(12)

  • 4级 :16–20(8)

  • 第5类 :20–24(2)

这个 一个国家的最小字符数为4 比如秘鲁。这个 最多24个字符 中非共和国。在地图上绘制每个国家及其字符数时,如下所示(括号表示计数):

Equal Intervals Choropleth Map

等间隔数据分类从最小值中减去最大值( 24-4=20 )在我们的示例中,我们生成了5个类,但类的数量完全取决于您。然后,它将20除以5,得到一个区间( 20/5=4

几乎所有情况下,等间隔的脊索映射都会导致 每类国家的不平等计数 . 例如,1类有 113个国家 在176个国家中,有4、5、6和7个字母。

然而,只有2个国家有超过20个字母。因此,与只有2种带有深色底纹的颜色相比,此地图显示的浅色底纹颜色更多。

但是如果你想让每个班级的国家数接近相等,会发生什么呢?这时你应该使用分位数图。

分位数(等计数)分类

这个 分位数图 尝试在5个类中的每个类中存储相同数量的功能。换句话说,分位数映射尝试 将组排列成相同的数量 . 因此,阴影将在分位数类型的地图中均匀分布。

Quantile Histogram

  • 1班 :4-6(56个国家有4、5或6个字母的名称)

  • 2班 :6–7(38)

  • 3班 :7–8(19)

  • 4级 :9–11(36)

  • 第5类 :12–24(27)

分位数地图占特征总数的176个国家。然后,它将总数除以类的数目得到平均值( 176/5=35.2 )最后,分位数映射计算每组中的数量,并尽可能接近平均值。

Quantile Choropleth Map

您可以看到每个类的计数看起来非常相似,并且 接近35.2 . 对于每个类,没有太多或太少的可供计算。

尽管分位数合唱团地图的平衡风格,他们也可能是误导。它们是误导性的,因为人们倾向于看一个阴影,把它归为同一类。例如,一个12个字母的国家和一个24个字母的国家有相同的阴影……和 正义在哪里?

自然断裂(Jenks)分类

关于自然中断(Jenks)分类要记住的第一件事是,它是针对Choropleth地图的优化方法。简而言之,它会排列每个分组,因此每个分组的 差异都较小类别 或阴影。

Natural Breaks Histogram

  • 1班 :4–6(56)

  • 2班 :6–8(57)

  • 3班 :8–12(41)

  • 4级 :12–18(18)

  • 第5类 :18–24(4)

自然中断(jenks)采用迭代方法,将类之间的平方偏差和与数组平均值进行比较。然后,该算法使用方差拟合优度,1为完全拟合,0为差拟合。

Natural Breaks Jenks Choropleth Map

自然断裂数据分类方法的创始人是一位名叫乔治·弗雷德里克·詹克斯的制图员。他专门研究看着地图时人眼的运动。这张地图的结果看起来也很棒。

您可以看到这个数据分类方法 最小化每组的变化 . 因为我们有许多较短的国家名称,所以它会找到合适的类别范围。但它仍然设法将具有较长国家名称的离群值分组到自己的类中。

标准偏差分类

标准差是一种统计技术类型的地图,基于多少数据不同于平均值。测量数据的平均值和标准偏差。然后,每一个标准差变成一个等级 在choropleth地图上。

Standard Deviations Histogram

在我们的例子中,字符的平均数约为8.5,标准偏差为3.7个字符。因此,所有5到8个字符的国家将被置于0到1的标准偏差分组中。同样,具有9到12个字母的国家被归为0到1个标准偏差范围,如下所示:

Standard Deviations Map

  • 1级

  • 2级 :-1至0σ(104)

  • 3级 :0至1σ(41)

  • 4级 :1至2σ(10)

  • 5级 :2至3σ(9)

  • 6级 :3至4σ(2)

  • 7级 :>=4σ(1)

作为输出的原始类别需要向读者澄清一点。平均值是多少?每个标准偏差的范围是多少?

尽管这些不一致,标准偏差类型的地图可能是最合适的 因为它的统计来源 . 所有4个字母的国家都是4个标准差,因为它与8.5的平均值有极大的偏差。

中断分类

如果你想要 整数 在你的范围内,那么你应该选择中断。所有中断都是向上或向下舍入每个断点。因此,与599.364的临界点不同,它将会变成60万。

Pretty Breaks Histogram

在本例中,很难看到数字的取整程度(它是按5进行分组的),因为上面的所有示例都会产生整数。但是当你有大量的数据,如人口估计(见下文),它会产生一些中断。

  • 1班 :4–5(29)

  • 2班 :5–10(111)

  • 3班 :10–15(24)

  • 4级 :15–20(10)

  • 第5类 :20–24(2)

Pretty Breaks Choropleth Map

作为四舍五入数字的结果,中断对于您决定的类的数量也是非常挑剔的。

下面是人口估计如何比较数据分类技术:

等间隔:

Equal Interval Legend

分位数:

Quantile Legend

自然断裂(Jenks):

Natural Breaks Legend

很好的中断。现在 很好

Pretty Breaks Legend

你自己试试看

Choropleth地图使用不同的底纹和颜色来显示定义区域中的数量或值。

通常情况下,地图绘制者使用 数据分类 创造自己独特的**choropleth地图**。每种数据分类方法对读者的影响不同。

在GIS中有几种数据分类方法。我们用不同的例子概述了它们的差异。使用本指南可以对犯罪率、教育水平和政治水平等进行分类。

您最喜欢的数据分类方法是什么?请在下面发表评论。