Choropleth地图-数据分类指南

Choropleth Maps - Data Classification

等间距,分位数,自然断裂,漂亮断裂。每种数据分类方法生成不同的脊索面图。我们解释了使用每种choropleth地图的优缺点。

如何利用数据分类制作Choropleth地图

你已经准备好了你的定量数据。鼠标悬停在“分类”上,等待生成多色的choropleth地图。

但你不禁想知道你是否选择了正确的数据分类模式。

Equal intervals 分位数,自然休息,漂亮休息-有很多选择。但它们之间有什么区别呢?

这篇文章将帮助您了解存在**choropleth地图**的类型,以及为您的地图选择哪一个。

选择课程数量

首先,必须基于多个类聚合数据。当你有更多的类,你会得到更多的变化,有时会使它更难分离阴影。如果你想测试不同的底纹, ColorBrewer 有颜色建议工具。

例如,这里是 10个班

10 classes

而类越少,类之间的分离就越少,例如 5个等级 下面。

5 classes

毕竟,您决定使用的类的数量实际上取决于映射的目的。

选择数据分类方法

其次,您必须决定如何对数据进行分类。换一种说法,数据分类用边界来安排数据,以分离类。您可以使用相等的间隔模式来分隔类:

Equal Intervals Histogram

或者,您可以选择一种分位数类型的分类器,它在其中以不同的方式排列数据(更多内容见下文)。

Quantile Histogram

每种数据分类技术都会生成唯一的**choropleth图**。但是它们都给地图阅读器描绘了一个不同的故事。你必须意识到的一件事是,您在每个Choropleth映射中使用的是**相同数据**,但是真正的变化是**如何对数据进行分类**。

我们的示例数据

你必须认识到的最重要的一点是,对于我们创建的每一幅choropleth地图,我们都使用**相同的数据**。改变的是我们如何对数据进行分类。

在本例中,我们计算国家名称中的字母数。例如:

  • 马里、古巴、秘鲁等国 四个字母的国家 .

  • 然而,波斯尼亚和黑塞哥维那有22个字符。

    如果您打印出4到22个字符,它将有很多颜色。

    例如,四个字母的国家是最浅的绿色阴影。随着字母数的增加,阴影会变暗。

    Choropleth Map

    按国家/地区字符数划分的Choropleth地图阴影

    哪个国家属于哪个集团?很难说。

    所以这就是我们使用数据分类的原因。当我们按类分组时,阴影会减少,我们会按组聚合数据。

    最后,问题是我们如何定义这些类边界或容器?换句话说,我们如何 对数据进行分类 分组?

    首先,让我们尝试将类划分为等距分组,如下面的等距分组,看看会发生什么。

    等间隔数据分类

    等距切割和干燥。它真正的作用是 将类分成相等的组

    Equal Intervals Histogram

    • 1班 :4-8(113个国家有4、5、6、7或8个字母)

    • 2班 :8–12(41)

    • 3班 :12–16(12)

    • 4级 :16–20(8)

    • 第5类 :20–24(2)

      这个 一个国家的最小字符数为4 比如秘鲁。这个 最多24个字符 中非共和国。在地图上绘制每个国家及其字符数时,如下所示(括号表示计数):

      Equal Intervals Choropleth Map

      等间隔数据分类从最小值中减去最大值( 24-4=20 )在我们的示例中,我们生成了5个类,但类的数量完全取决于您。然后,它将20除以5,得到一个区间( 20/5=4

      几乎所有情况下,等间隔的脊索映射都会导致 每类国家的不平等计数 . 例如,1类有 113个国家 在176个国家中,有4、5、6和7个字母。

      然而,只有2个国家有超过20个字母。因此,与只有2种带有深色底纹的颜色相比,此地图显示的浅色底纹颜色更多。

      但是如果你想让每个班级的国家数接近相等,会发生什么呢?这时你应该使用分位数图。

      分位数(等计数)分类

      这个 分位数图 尝试在5个类中的每个类中存储相同数量的功能。换句话说,分位数映射尝试 将组排列成相同的数量 . 因此,阴影将在分位数类型的地图中均匀分布。

      Quantile Histogram

      • 1班 :4-6(56个国家有4、5或6个字母的名称)

      • 2班 :6–7(38)

      • 3班 :7–8(19)

      • 4级 :9–11(36)

      • 第5类 :12–24(27)

        分位数地图占特征总数的176个国家。然后,它将总数除以类的数目得到平均值( 176/5=35.2 )最后,分位数映射计算每组中的数量,并尽可能接近平均值。

        Quantile Choropleth Map

        您可以看到每个类的计数看起来非常相似,并且 接近35.2 . 对于每个类,没有太多或太少的可供计算。

        尽管分位数合唱团地图的平衡风格,他们也可能是误导。它们是误导性的,因为人们倾向于看一个阴影,把它归为同一类。例如,一个12个字母的国家和一个24个字母的国家有相同的阴影……和 正义在哪里?

        自然断裂(Jenks)分类

        关于自然中断(Jenks)分类要记住的第一件事是,它是针对Choropleth地图的优化方法。简而言之,它会排列每个分组,因此每个分组的 差异都较小类别 或阴影。

        Natural Breaks Histogram

        • 1班 :4–6(56)

        • 2班 :6–8(57)

        • 3班 :8–12(41)

        • 4级 :12–18(18)

        • 第5类 :18–24(4)

          自然中断(jenks)采用迭代方法,将类之间的平方偏差和与数组平均值进行比较。然后,该算法使用方差拟合优度,1为完全拟合,0为差拟合。

          Natural Breaks Jenks Choropleth Map

          自然断裂数据分类方法的创始人是一位名叫乔治·弗雷德里克·詹克斯的制图员。他专门研究看着地图时人眼的运动。这张地图的结果看起来也很棒。

          您可以看到这个数据分类方法 最小化每组的变化 . 因为我们有许多较短的国家名称,所以它会找到合适的类别范围。但它仍然设法将具有较长国家名称的离群值分组到自己的类中。

          标准偏差分类

          标准差是一种统计技术类型的地图,基于多少数据不同于平均值。测量数据的平均值和标准偏差。然后,每一个标准差变成一个等级 在choropleth地图上。

          Standard Deviations Histogram

          在我们的例子中,字符的平均数约为8.5,标准偏差为3.7个字符。因此,所有5到8个字符的国家将被置于0到1的标准偏差分组中。同样,具有9到12个字母的国家被归为0到1个标准偏差范围,如下所示:

          Standard Deviations Map