GroupBy#

GroupBy对象由Groupby调用返回: pandas.DataFrame.groupby()pandas.Series.groupby() 等。

索引、迭代#

GroupBy.__iter__ \()

分组迭代器。

GroupBy.groups 

Dict{组名->组标签}。

GroupBy.indices 

Dict{组名->组索引}。

GroupBy.get_group \(名称[, obj] )

使用提供的名称从组构造DataFrame。

Grouper \(*args, * *kwargs)

Grouper允许用户为对象指定GROUP BY指令。

功能应用#

GroupBy.apply \(函数,*args, * *kwargs)

应用函数 func 分组并将结果合并在一起。

GroupBy.agg \(函数,*args, * *kwargs)

SeriesGroupBy.aggregate \([func, engine, ...] )

使用指定轴上的一个或多个操作进行聚合。

DataFrameGroupBy.aggregate \([func, engine, ...] )

使用指定轴上的一个或多个操作进行聚合。

SeriesGroupBy.transform \(函数,*参数[, ...] )

调用在每个组上生成类似索引的Series的函数,并返回一个具有与原始对象相同的索引的Series,该对象填充了转换后的值。

DataFrameGroupBy.transform \(函数,*参数[, ...] )

调用在每个组上生成类似索引的DataFrame的函数,并返回一个DataFrame,该DataFrame具有与原始对象相同的索引,其中填充了转换后的值。

GroupBy.pipe \(函数,*args, * *kwargs)

应用函数 func 将参数传递给此GroupBy对象并返回函数的结果。

计算/描述性统计#

GroupBy.all \([skipna] )

如果组中的所有值都为真,则返回True,否则返回False。

GroupBy.any \([skipna] )

如果组中的任何值为真,则返回True,否则返回False。

GroupBy.bfill \([limit] )

向后填充值。

GroupBy.backfill \([limit] )

向后填充值。

GroupBy.count \()

计算组的计数,不包括缺失值。

GroupBy.cumcount \([ascending] )

对每组中的每一项进行编号,从0到该组的长度-1。

GroupBy.cummax \([axis] )

每组的累计最大值。

GroupBy.cummin \([axis] )

每组的累计分钟数。

GroupBy.cumprod \([axis] )

每组的累计产品。

GroupBy.cumsum \([axis] )

每组的累计总和。

GroupBy.ffill \([limit] )

向前填充值。

GroupBy.first \([numeric_only, min_count] )

计算每列的第一个非空条目。

GroupBy.head \([n] )

返回每组的前n行。

GroupBy.last \([numeric_only, min_count] )

计算每列的最后一个非空条目。

GroupBy.max \([numeric_only, min_count, ...] )

计算组值的最大值。

GroupBy.mean \([numeric_only, engine, ...] )

计算组的平均值,不包括缺失值。

GroupBy.median \([numeric_only] )

计算组的中位数,不包括缺失值。

GroupBy.min \([numeric_only, min_count, ...] )

计算组值的最小值。

GroupBy.ngroup \([ascending] )

每个组的编号从0到组数-1。

GroupBy.nth \(n[, dropna] )

如果n是整型,则取每组中的第n行,否则为行子集。

GroupBy.ohlc \()

计算组的开盘值、最高值、最低值和收盘值,不包括缺失值。

GroupBy.pad \([limit] )

向前填充值。

GroupBy.prod \([numeric_only, min_count] )

计算组值的Prod。

GroupBy.rank \([method, ascending, na_option, ...] )

提供每个组中的值的排名。

GroupBy.pct_change \([periods, fill_method, ...] )

计算组中每个值对上一条目的更改百分比。

GroupBy.size \()

计算组大小。

GroupBy.sem \([ddof] )

计算分组平均值的标准误差,不包括缺失值。

GroupBy.std \([ddof, engine, engine_kwargs] )

计算组的标准差,不包括缺失值。

GroupBy.sum \([numeric_only, min_count, ...] )

计算组值的总和。

GroupBy.var \([ddof, engine, engine_kwargs] )

计算组的差异,不包括缺失值。

GroupBy.tail \([n] )

返回每组的最后n行。

以下方法在这两个版本中都可用 SeriesGroupByDataFrameGroupBy 对象,但可能略有不同,通常是因为 DataFrameGroupBy Version通常允许指定轴参数,通常还允许指定指示是否将应用程序限制为特定数据类型的列的参数。

DataFrameGroupBy.all \([skipna] )

如果组中的所有值都为真,则返回True,否则返回False。

DataFrameGroupBy.any \([skipna] )

如果组中的任何值为真,则返回True,否则返回False。

DataFrameGroupBy.backfill \([limit] )

向后填充值。

DataFrameGroupBy.bfill \([limit] )

向后填充值。

DataFrameGroupBy.corr 

计算列的成对关联,不包括NA/NULL值。

DataFrameGroupBy.count \()

计算组的计数,不包括缺失值。

DataFrameGroupBy.cov 

计算列的成对协方差,不包括NA/NULL值。

DataFrameGroupBy.cumcount \([ascending] )

对每组中的每一项进行编号,从0到该组的长度-1。

DataFrameGroupBy.cummax \([axis] )

每组的累计最大值。

DataFrameGroupBy.cummin \([axis] )

每组的累计分钟数。

DataFrameGroupBy.cumprod \([axis] )

每组的累计产品。

DataFrameGroupBy.cumsum \([axis] )

每组的累计总和。

DataFrameGroupBy.describe \(** Kwargs)

生成描述性统计数据。

DataFrameGroupBy.diff \([periods, axis] )

单元的一阶离散差分。

DataFrameGroupBy.ffill \([limit] )

向前填充值。

DataFrameGroupBy.fillna 

使用指定的方法填充NA/NaN值。

DataFrameGroupBy.filter \(函数[, dropna] )

返回DataFrame的副本,不包括已筛选的元素。

DataFrameGroupBy.hist 

制作DataFrame的列的直方图。

DataFrameGroupBy.idxmax \([axis, skipna] )

返回在请求的轴上第一次出现最大值的索引。

DataFrameGroupBy.idxmin \([axis, skipna] )

返回在请求的轴上第一次出现最小值的索引。

DataFrameGroupBy.mad 

(已弃用)返回值在请求的轴上的平均绝对偏差。

DataFrameGroupBy.nunique \([dropna] )

返回每个位置的唯一元素计数的DataFrame。

DataFrameGroupBy.pad \([limit] )

向前填充值。

DataFrameGroupBy.pct_change \([periods, ...] )

计算组中每个值对上一条目的更改百分比。

DataFrameGroupBy.plot 

类的新实例,该类实现了Groupby对象的.lot属性。

DataFrameGroupBy.quantile \([q, interpolation] )

返回给定分位数的组值,a la numpy.perentile。

DataFrameGroupBy.rank \([method, ascending, ...] )

提供每个组中的值的排名。

DataFrameGroupBy.resample (规则,*args, * *kwargs)

在使用TimeGrouper时提供重采样。

DataFrameGroupBy.sample \([n, frac, replace, ...] )

返回每个组中项目的随机样本。

DataFrameGroupBy.shift \([periods, freq, ...] )

按周期移动每组观测值。

DataFrameGroupBy.size \()

计算组大小。

DataFrameGroupBy.skew 

返回请求的轴上的无偏斜。

DataFrameGroupBy.take 

返回给定元素中的元素 位置 沿轴的索引。

DataFrameGroupBy.tshift 

(已弃用)移动时间索引,使用索引的频率(如果可用)。

DataFrameGroupBy.value_counts \([subset, ...] )

返回包含唯一行计数的Series或DataFrame。

以下方法仅适用于 SeriesGroupBy 对象。

SeriesGroupBy.hist 

使用matplotlib绘制输入序列的直方图。

SeriesGroupBy.nlargest \([n, keep] )

退回最大的 n 元素。

SeriesGroupBy.nsmallest \([n, keep] )

返回最小的 n 元素。

SeriesGroupBy.unique 

返回Series对象的唯一值。

SeriesGroupBy.is_monotonic_increasing 

如果对象中的值是单调递增的,则返回布尔值。

SeriesGroupBy.is_monotonic_decreasing 

如果对象中的值是单调递减的,则返回布尔值。

以下方法仅适用于 DataFrameGroupBy 对象。

DataFrameGroupBy.corrwith 

计算成对相关。

DataFrameGroupBy.boxplot \([subplots, column, ...] )

从DataFrameGroupBy数据制作框图。