seaborn.
histplot
(data=None, *, x=None, y=None, hue=None, weights=None, stat='count', bins='auto', binwidth=None, binrange=None, discrete=None, cumulative=False, common_bins=True, common_norm=True, multiple='layer', element='bars', fill=True, shrink=1, kde=False, kde_kws=None, line_kws=None, thresh=0, pthresh=None, pmax=None, cbar=False, cbar_ax=None, cbar_kws=None, palette=None, hue_order=None, hue_norm=None, color=None, log_scale=None, legend=True, ax=None, **kwargs)¶绘制单变量或双变量直方图以显示数据集的分布。
直方图是一种典型的可视化工具,它通过计算离散箱中的观察值数量来表示一个或多个变量的分布。
该函数可以对每个箱子内计算的统计数据进行归一化,以估计频率、密度或概率质量,并且可以添加使用核密度估计获得的平滑曲线,类似于 kdeplot()
.
更多信息见 user guide .
pandas.DataFrame
, numpy.ndarray
、映射或序列1.数据帧, numpy.ndarray公司、映射或序列输入数据结构。可以指定给命名变量的向量的长格式集合,或将在内部重新成形的宽格式数据集。
data
向量或键指定x轴和y轴位置的变量。
data
向量或键映射以确定绘图元素颜色的语义变量。
data
向量或键如果提供,则通过这些因素对每个箱子中相应数据点对计数的贡献进行加权。
要在每个箱子中计算的聚合统计信息。
count
显示观察次数
frequency
显示观察数除以箱子宽度
density
规格化计数,使直方图的面积为1
probability
规格化计数,使条形高度之和为1
泛型bin参数,可以是引用规则的名称、bin数或bin的分段。传递给 numpy.histogram_bin_edges()
.
每个箱子的宽度,覆盖 bins
但可以与 binrange
.
箱子边缘的最低值和最高值;可以与 bins
或 binwidth
. 默认为数据极端。
如果为True,则默认为 binwidth=1
并绘制条形图,使其以相应的数据点为中心。这避免了使用离散(整数)数据时可能出现的“间隙”。
如果为真,则绘制箱子增加时的累计计数。
如果为True,则在语义变量生成多个图时使用相同的bin。如果使用引用规则来确定BIN,则将使用完整的数据集进行计算。
如果为True并使用规范化统计,则规范化将应用于整个数据集。否则,独立地规格化每个直方图。
语义映射创建子集时解析多个元素的方法。仅与单变量数据相关。
直方图统计的可视化表示。仅与单变量数据相关。
如果为真,请填写直方图下的空格。仅与单变量数据相关。
按此因子缩放每个条相对于binwidth的宽度。仅与单变量数据相关。
如果为真,则计算核密度估计以平滑分布,并在绘图上显示为(一条或多条)线。仅与单变量数据相关。
控制KDE计算的参数,如 kdeplot()
.
控制KDE可视化的参数,传递给 matplotlib.axes.Axes.plot()
.
统计值小于或等于此值的单元格将是透明的。仅与二元数据相关。
喜欢 thresh
,但在 [0, 1] 这样,聚合计数(或其他统计信息,当使用时)达到总计数比例的单元格将是透明的。
价值观 [0, 1] 它将colormap的饱和点设置为一个值,使得下面的单元格占总计数的这个比例(或者使用其他统计信息时)。
如果为True,则添加颜色条以注释二元图中的颜色映射。注意:当前不支持带有 hue
变量井。
matplotlib.axes.Axes
matplotlib.axes.Axes
颜色栏的预先存在的轴。
传递给的其他参数 matplotlib.figure.Figure.colorbar()
.
matplotlib.colors.Colormap
字符串、列表、dict或用于在映射时选择要使用的颜色的方法 hue
语义的。字符串值传递给 color_palette()
. List或dict值表示分类映射,而colormap对象表示数字映射。
指定文件的分类级别的处理和打印顺序 hue
语义的。
matplotlib.colors.Normalize
元组或以数据单位设置规范化范围的一对值或将从数据单位映射到 [0, 1] 间隔。用法意味着数字映射。
matplotlib color
matplotlib颜色不使用色调映射时的单色规范。否则,绘图将尝试挂接到matplotlib属性循环中。
使用给定的基数(默认值为10)在数据轴(或多个轴,使用双变量数据)上设置对数刻度,并在日志空间中计算KDE。
如果为False,则抑制语义变量的图例。
matplotlib.axes.Axes
matplotlib.axes.Axes
绘图的现有轴。否则,请致电 matplotlib.pyplot.gca()
内部的。
其他关键字参数传递给以下matplotlib函数之一:
matplotlib.axes.Axes.bar()
(单变量,element=“bars”)
matplotlib.axes.Axes.fill_between()
(单变量,其他元素,填充=真)
matplotlib.axes.Axes.plot()
(单变量,其他元素,填充=假)
matplotlib.axes.Axes
包含plotlib的plotlib。
参见
笔记
选择用于计算和绘制直方图的容器可以对从可视化中得出的见解产生重大影响。如果箱子太大,它们可能会删除重要的功能。另一方面,太小的垃圾箱可能被随机变化所控制,模糊了真实的潜在分布的形状。默认仓位大小是使用参考规则确定的,该规则取决于样本大小和方差。这种方法在许多情况下都很有效(例如,使用“行为良好”的数据),但在其他情况下却失败了。尝试不同大小的箱子总是一个好办法,以确保你没有遗漏一些重要的东西。此功能允许您以多种不同的方式指定存储箱,例如通过设置要使用的存储箱总数、每个存储箱的宽度或存储箱应该中断的特定位置。
实例