快速入门#

安装#

和康达一起工作吗?

Pandas是大Pandas的一部分 Anaconda 发行版,可与 Python 或Miniconda一起安装:

更喜欢皮普吗?

Pandas可以通过管道安装,地址是 PyPI

深入的说明?

是否安装特定版本?是否从源安装?查看高级安装页面。

Learn more

Pandas简介#

在处理表格数据(如存储在电子表格或数据库中的数据)时,Pandas是最适合您的工具。Pandas将帮助你探索、清理和处理你的数据。在Pandas中,数据表被称为 DataFrame

../_images/01_table_dataframe.svg

Pandas支持与多种开箱即用的文件格式或数据源(CSV、EXCEL、SQL、JSON、PARQUE、…)集成。从这些数据源中的每个数据源导入数据由带有前缀的函数提供 read_* 。类似地, to_* 方法用于存储数据。

../_images/02_io_readwrite.svg

选择或筛选特定行和/或列?是否按条件筛选数据?Pandas提供了切片、选择和提取所需数据的方法。

../_images/03_subset_columns_rows.svg

Pandas使用Matplotlib的功能,提供开箱即用的数据绘图功能。您可以选择绘图类型(散点图、条形图、框图等)与您的数据相对应。

../_images/04_plot_overview.svg

不需要遍历数据表的所有行来进行计算。列上的数据操作是以元素为单位工作的。将列添加到 DataFrame 基于其他列中的现有数据是很简单的。

../_images/05_newcolumn_2.svg

基本统计(平均值、中位数、最小值、最大值、计数...)是很容易计算的。这些或定制聚合可应用于整个数据集、数据的滑动窗口或按类别分组。后者也称为拆分-应用-合并方法。

../_images/06_groupby.svg

以多种方式更改数据表的结构。你可以的 melt() 您的数据表从宽到长/整齐的表格或 pivot() 从长到宽的格式。使用内置的聚合,只需一个命令即可创建数据透视表。

../_images/07_melt.svg

由于提供了类似数据库的连接/合并操作来组合多个数据表,因此可以按列和按行连接多个表。

../_images/08_concat_row.svg

Pandas对时间序列有很好的支持,并且有一套广泛的工具来处理日期、时间和时间索引数据。

数据集不仅包含数字数据。Pandas提供了广泛的功能来清理文本数据并从中提取有用的信息。

来自..。#

您熟悉其他处理表格数据的软件吗?与你已经知道的软件相比,学习Pandas的操作:

img-顶部

这个 R programming language 提供了 data.frame data structure and multiple packages, such as tidyverse 使用和扩展 data.frame 用于方便的数据处理功能,类似于Pandas。

img-顶部

已经熟悉的 SELECTGROUP BYJOIN 等等?这些SQL操作中的大多数在Pandas身上都有类似的操作。

img-顶部

这个 data set included in the STATA 统计软件套装与Pandas相对应 DataFrame 。从Stata那里了解到的许多操作在Pandas身上都有类似的操作。

img-顶部

用户 Excel 或者其他电子表格程序会发现,许多概念可以转移到Pandas身上。

img-顶部

这个 SAS 统计软件套件还提供了 data set 与Pandas相对应 DataFrame 。此外,SAS的矢量化操作、过滤、字符串处理等操作在Pandas中也具有类似的功能。

教程#

有关Pandas功能的快速概述,请参阅 10 Minutes to pandas

你也可以参考Pandas cheat sheet 获取有关处理Pandas数据的简明指南。

该社区提供了各种各样的在线教程。其中一些材料是征募到社区捐献的 社区教程