pandas.DataFrame.to_hdf#

DataFrame.to_hdf(path_or_buf, key, mode='a', complevel=None, complib=None, append=False, format=None, index=True, min_itemsize=None, nan_rep=None, dropna=None, data_columns=None, errors='strict', encoding='UTF-8')[源代码]#

使用HDFStore将包含的数据写入HDF5文件。

分层数据格式(HDF)是自描述的,允许应用程序在没有外部信息的情况下解释文件的结构和内容。一个HDF文件可以包含相关对象的组合,这些对象可以作为一个组或单个对象进行访问。

为了将另一个DataFrame或Series添加到现有的HDF文件中,请使用追加模式和不同的a键。

警告

可以存储的子类 DataFrameSeries 到HDF5,但子类的类型在存储时会丢失。

有关详细信息,请参阅 user guide

参数
path_or_buf字符串或Pandas.HDFStore

文件路径或HDFStore对象。

key应力

商店中组的标识符。

mode{‘a’,‘w’,‘r+’},默认为‘a’

打开文件的模式:

  • ‘w’:WRITE,创建新文件(删除同名的现有文件)。

  • ‘a’:追加,打开一个现有文件进行读写,如果该文件不存在,则创建该文件。

  • ‘r+’:类似于‘a’,但该文件必须已存在。

complevel{0-9},默认为无

指定数据的压缩级别。值为0或无将禁用压缩。

complib{‘zlib’,‘lzo’,‘bzip2’,‘blosc’},默认‘zlib’

指定要使用的压缩库。从v0.20.2开始,支持Blosc的这些附加压缩程序(如果未指定压缩程序,则默认为:‘blosc:blosclz’):{‘blosc:blosclz’,‘blosc:lz4’,‘blosc:lz4hc’,‘blosc:Snappy’,‘blosc:zlib’,‘blosc:zstd’}。指定不可用的压缩库会导致ValueError。

append布尔值,默认为False

对于表格式,将输入数据追加到现有。

format{‘FIXED’,‘TABLE’,NONE},默认为‘FIXED’

可能的值:

  • ‘Fixed’:固定格式。快速书写/阅读。不可追加,也不可搜索。

  • ‘TABLE’:表格格式。写为一种PyTables表结构,其性能可能较差,但允许更灵活的操作,如搜索/选择数据子集。

  • 如果没有,则选中pd.get_Option(‘io.hdf.Default_Format’),然后回退到“FIXED”。

errors字符串,默认为‘Strong’

指定如何处理编码和解码错误。请参阅的错误参数 open() 查看完整的选项列表。

encoding字符串,默认“UTF-8”
min_itemsizeDict或int,可选

将列名映射到列的最小字符串大小。

nan_rep任何,可选

如何将空值表示为字符串。Append=True时不允许。

data_columns列列表或True,可选

要创建为磁盘上查询的索引数据列的列的列表,或为True以使用所有列。默认情况下,仅对对象的轴进行索引。看见 通过数据列进行查询 。仅适用于格式=‘TABLE’。

参见

read_hdf

从HDF文件中读取。

DataFrame.to_parquet

将DataFrame写入二进制拼图格式。

DataFrame.to_sql

写入SQL表。

DataFrame.to_feather

写出DataFrames的羽化格式。

DataFrame.to_csv

写出到CSV文件。

示例

>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]},
...                   index=['a', 'b', 'c'])  
>>> df.to_hdf('data.h5', key='df', mode='w')  

我们可以将另一个对象添加到同一文件中:

>>> s = pd.Series([1, 2, 3, 4])  
>>> s.to_hdf('data.h5', key='s')  

正在从HDF文件读取:

>>> pd.read_hdf('data.h5', 'df')  
A  B
a  1  4
b  2  5
c  3  6
>>> pd.read_hdf('data.h5', 's')  
0    1
1    2
2    3
3    4
dtype: int64