pandas.qcut#

pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')[源代码]#

基于分位数的离散化函数。

基于等级或基于样本分位数将变量离散到相同大小的桶中。例如,10个分位数的1000个值将生成一个分类对象,指示每个数据点的分位数成员身份。

参数
x一维ndarray或系列
q浮点型的整型或列表型

分位数。十分位数为10,四分位数为4,等等。 [0,25,5,75,1。] 四分位数。

labels数组或FALSE,默认为无

用作结果垃圾箱的标签。必须与生成的垃圾箱的长度相同。如果为False,则仅返回垃圾箱的整数指示符。如果为True,则引发错误。

retbins布尔值,可选

是否退回(箱子、标签)。如果以标量形式给出箱,则可能非常有用。

precision整型,可选

存储和显示垃圾箱标签的精度。

duplicates{默认‘RAISE’,‘DROP’},可选

如果bin边不是唯一的,则提高ValueError或删除非唯一性。

退货
out如果标签为假,则为类别或系列或整数数组

返回类型(类别类型或系列)取决于输入:如果输入是Series Else类别类型,则为Series of类别。当返回分类数据时,垃圾箱被表示为类别。

bins一大堆花车

仅在以下情况下返回 retbins 是真的。

注意事项

在生成的类别对象中,越界的值将为NA

示例

>>> pd.qcut(range(5), 4)
... 
[(-0.001, 1.0], (-0.001, 1.0], (1.0, 2.0], (2.0, 3.0], (3.0, 4.0]]
Categories (4, interval[float64, right]): [(-0.001, 1.0] < (1.0, 2.0] ...
>>> pd.qcut(range(5), 3, labels=["good", "medium", "bad"])
... 
[good, good, medium, bad, bad]
Categories (3, object): [good < medium < bad]
>>> pd.qcut(range(5), 4, labels=False)
array([0, 0, 1, 2, 3])