pandas.core.resample.Resampler.fillna#

Resampler.fillna(method, limit=None)[源代码]#

填充由上采样引入的缺失值。

在统计学中，补偿是用替换值替换缺失数据的过程 [1]. 重采样数据时，可能会出现缺失值(例如，当重采样频率高于原始频率时)。

不会修改原始数据中存在的缺失值。

参数

method{‘填充’，‘回填’，‘填充’，‘填充’，‘最近’}

一种用于填充重采样数据中空洞的方法

‘Pad’或‘ffill’：使用先前有效的观察来填充空白(正向填充)。
“BACFILL”或“BFILL”：使用下一个有效的观察来填充空白。
“最近的”：使用最近的有效观察来填补空白。

limit整型，可选

要填充的连续缺失值的数量限制。

退货

系列或DataFrame: 填充了缺失值的上采样序列或DataFrame。

参见

bfill: 向后填充重新采样数据中的NaN值。
ffill: 正向填充重新采样数据中的NaN值。
nearest: 用最近的邻居从中心开始填充重采样数据中的NaN值。
interpolate: 使用插值法填充NaN值。
Series.fillna: 使用指定的方法填充系列中的NaN值，该方法可以是‘bill’和‘ffill’。
DataFrame.fillna: 使用指定的方法填充DataFrame中的NaN值，该方法可以是‘bill’和‘ffill’。

参考文献

1: https://en.wikipedia.org/wiki/Imputation_(statistics)

示例

对系列进行重采样：

>>> s = pd.Series([1, 2, 3],
...               index=pd.date_range('20180101', periods=3, freq='h'))
>>> s
2018-01-01 00:00:00    1
2018-01-01 01:00:00    2
2018-01-01 02:00:00    3
Freq: H, dtype: int64

在不填充缺失的值的情况下，您将获得：

>>> s.resample("30min").asfreq()
2018-01-01 00:00:00    1.0
2018-01-01 00:30:00    NaN
2018-01-01 01:00:00    2.0
2018-01-01 01:30:00    NaN
2018-01-01 02:00:00    3.0
Freq: 30T, dtype: float64

>>> s.resample('30min').fillna("backfill")
2018-01-01 00:00:00    1
2018-01-01 00:30:00    2
2018-01-01 01:00:00    2
2018-01-01 01:30:00    3
2018-01-01 02:00:00    3
Freq: 30T, dtype: int64

>>> s.resample('15min').fillna("backfill", limit=2)
2018-01-01 00:00:00    1.0
2018-01-01 00:15:00    NaN
2018-01-01 00:30:00    2.0
2018-01-01 00:45:00    2.0
2018-01-01 01:00:00    2.0
2018-01-01 01:15:00    NaN
2018-01-01 01:30:00    3.0
2018-01-01 01:45:00    3.0
2018-01-01 02:00:00    3.0
Freq: 15T, dtype: float64

>>> s.resample('30min').fillna("pad")
2018-01-01 00:00:00    1
2018-01-01 00:30:00    1
2018-01-01 01:00:00    2
2018-01-01 01:30:00    2
2018-01-01 02:00:00    3
Freq: 30T, dtype: int64

>>> s.resample('30min').fillna("nearest")
2018-01-01 00:00:00    1
2018-01-01 00:30:00    2
2018-01-01 01:00:00    2
2018-01-01 01:30:00    3
2018-01-01 02:00:00    3
Freq: 30T, dtype: int64

上采样之前出现的缺失值不受影响。

>>> sm = pd.Series([1, None, 3],
...               index=pd.date_range('20180101', periods=3, freq='h'))
>>> sm
2018-01-01 00:00:00    1.0
2018-01-01 01:00:00    NaN
2018-01-01 02:00:00    3.0
Freq: H, dtype: float64

>>> sm.resample('30min').fillna('backfill')
2018-01-01 00:00:00    1.0
2018-01-01 00:30:00    NaN
2018-01-01 01:00:00    NaN
2018-01-01 01:30:00    3.0
2018-01-01 02:00:00    3.0
Freq: 30T, dtype: float64

>>> sm.resample('30min').fillna('pad')
2018-01-01 00:00:00    1.0
2018-01-01 00:30:00    1.0
2018-01-01 01:00:00    NaN
2018-01-01 01:30:00    NaN
2018-01-01 02:00:00    3.0
Freq: 30T, dtype: float64

>>> sm.resample('30min').fillna('nearest')
2018-01-01 00:00:00    1.0
2018-01-01 00:30:00    NaN
2018-01-01 01:00:00    NaN
2018-01-01 01:30:00    3.0
2018-01-01 02:00:00    3.0
Freq: 30T, dtype: float64

DataFrame重采样按列进行。所有相同的选项都可用。

>>> df = pd.DataFrame({'a': [2, np.nan, 6], 'b': [1, 3, 5]},
...                   index=pd.date_range('20180101', periods=3,
...                                       freq='h'))
>>> df
                       a  b
2018-01-01 00:00:00  2.0  1
2018-01-01 01:00:00  NaN  3
2018-01-01 02:00:00  6.0  5

>>> df.resample('30min').fillna("bfill")
                       a  b
2018-01-01 00:00:00  2.0  1
2018-01-01 00:30:00  NaN  3
2018-01-01 01:00:00  NaN  3
2018-01-01 01:30:00  6.0  5
2018-01-01 02:00:00  6.0  5

pandas.core.resample.Resampler.nearest

pandas.core.resample.Resampler.asfreq