pandas.qcut#
- pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')[源代码]#
基于分位数的离散化函数。
基于等级或基于样本分位数将变量离散到相同大小的桶中。例如,10个分位数的1000个值将生成一个分类对象,指示每个数据点的分位数成员身份。
- 参数
- x一维ndarray或系列
- q浮点型的整型或列表型
分位数。十分位数为10,四分位数为4,等等。 [0,25,5,75,1。] 四分位数。
- labels数组或FALSE,默认为无
用作结果垃圾箱的标签。必须与生成的垃圾箱的长度相同。如果为False,则仅返回垃圾箱的整数指示符。如果为True,则引发错误。
- retbins布尔值,可选
是否退回(箱子、标签)。如果以标量形式给出箱,则可能非常有用。
- precision整型,可选
存储和显示垃圾箱标签的精度。
- duplicates{默认‘RAISE’,‘DROP’},可选
如果bin边不是唯一的,则提高ValueError或删除非唯一性。
- 退货
- out如果标签为假,则为类别或系列或整数数组
返回类型(类别类型或系列)取决于输入:如果输入是Series Else类别类型,则为Series of类别。当返回分类数据时,垃圾箱被表示为类别。
- bins一大堆花车
仅在以下情况下返回 retbins 是真的。
注意事项
在生成的类别对象中,越界的值将为NA
示例
>>> pd.qcut(range(5), 4) ... [(-0.001, 1.0], (-0.001, 1.0], (1.0, 2.0], (2.0, 3.0], (3.0, 4.0]] Categories (4, interval[float64, right]): [(-0.001, 1.0] < (1.0, 2.0] ...
>>> pd.qcut(range(5), 3, labels=["good", "medium", "bad"]) ... [good, good, medium, bad, bad] Categories (3, object): [good < medium < bad]
>>> pd.qcut(range(5), 4, labels=False) array([0, 0, 1, 2, 3])