pandas.read_parquet#
- pandas.read_parquet(path, engine='auto', columns=None, storage_options=None, use_nullable_dtypes=False, **kwargs)[源代码]#
从文件路径加载一个地块对象,返回一个DataFrame。
- 参数
- path字符串、路径对象或类文件对象
字符串、路径对象(实现
os.PathLike[str]
)或实现二进制文件的类似文件的对象read()
功能。该字符串可以是URL。有效的URL方案包括http、ftp、s3、gs和文件。对于文件URL,需要主机。本地文件可以是:file://localhost/path/to/table.parquet
。文件URL也可以是包含多个分区拼图文件的目录的路径。Pyrow和fast parket都支持指向目录的路径以及文件URL。目录路径可以是:file://localhost/path/to/tables
或s3://bucket/partition_dir
。- engine{‘AUTO’,‘YARROW’,‘FastPARQUET’},默认为‘AUTO’
要使用的镶木地板库。如果为‘AUTO’,则选项
io.parquet.engine
使用的是。默认设置io.parquet.engine
行为是尝试‘yarrow’,如果‘yarrow’不可用,则退回到‘快速拼花’。- columns列表,默认为无
如果不是无,则仅从文件中读取这些列。
- storage_optionsDICT,可选
对特定存储连接有意义的额外选项,例如主机、端口、用户名、密码等。对于HTTP(S)URL,键-值对被转发到
urllib.request.Request
作为标题选项。对于其他URL(例如,以“s3://”和“gcs://”开头),键-值对被转发到fsspec.open
。请看fsspec
和urllib
有关更多详细信息和有关存储选项的更多示例,请参阅 here 。1.3.0 新版功能.
- use_nullable_dtypes布尔值,默认为False
如果为True,则使用使用
pd.NA
作为结果DataFrame的缺失值指示符。(只适用于pyarrow
引擎),因为添加的新数据类型支持pd.NA
将来,使用该选项的输出将更改为使用这些数据类型。注意:这是一个试验性选项,行为(例如其他支持数据类型)可能会更改,恕不另行通知。1.2.0 新版功能.
- **kwargs
任何额外的马力都会传递给发动机。
- 退货
- DataFrame