pandas.read_parquet#

pandas.read_parquet(path, engine='auto', columns=None, storage_options=None, use_nullable_dtypes=False, **kwargs)[源代码]#

从文件路径加载一个地块对象,返回一个DataFrame。

参数
path字符串、路径对象或类文件对象

字符串、路径对象(实现 os.PathLike[str] )或实现二进制文件的类似文件的对象 read() 功能。该字符串可以是URL。有效的URL方案包括http、ftp、s3、gs和文件。对于文件URL,需要主机。本地文件可以是: file://localhost/path/to/table.parquet 。文件URL也可以是包含多个分区拼图文件的目录的路径。Pyrow和fast parket都支持指向目录的路径以及文件URL。目录路径可以是: file://localhost/path/to/tabless3://bucket/partition_dir

engine{‘AUTO’,‘YARROW’,‘FastPARQUET’},默认为‘AUTO’

要使用的镶木地板库。如果为‘AUTO’,则选项 io.parquet.engine 使用的是。默认设置 io.parquet.engine 行为是尝试‘yarrow’,如果‘yarrow’不可用,则退回到‘快速拼花’。

columns列表,默认为无

如果不是无,则仅从文件中读取这些列。

storage_optionsDICT,可选

对特定存储连接有意义的额外选项,例如主机、端口、用户名、密码等。对于HTTP(S)URL,键-值对被转发到 urllib.request.Request 作为标题选项。对于其他URL(例如,以“s3://”和“gcs://”开头),键-值对被转发到 fsspec.open 。请看 fsspecurllib 有关更多详细信息和有关存储选项的更多示例,请参阅 here

1.3.0 新版功能.

use_nullable_dtypes布尔值,默认为False

如果为True,则使用使用 pd.NA 作为结果DataFrame的缺失值指示符。(只适用于 pyarrow 引擎),因为添加的新数据类型支持 pd.NA 将来,使用该选项的输出将更改为使用这些数据类型。注意:这是一个试验性选项,行为(例如其他支持数据类型)可能会更改,恕不另行通知。

1.2.0 新版功能.

**kwargs

任何额外的马力都会传递给发动机。

退货
DataFrame