快速入门#
安装#
Pandas简介#
在处理表格数据(如存储在电子表格或数据库中的数据)时,Pandas是最适合您的工具。Pandas将帮助你探索、清理和处理你的数据。在Pandas中,数据表被称为 DataFrame
。
Pandas支持与多种开箱即用的文件格式或数据源(CSV、EXCEL、SQL、JSON、PARQUE、…)集成。从这些数据源中的每个数据源导入数据由带有前缀的函数提供 read_*
。类似地, to_*
方法用于存储数据。
Pandas使用Matplotlib的功能,提供开箱即用的数据绘图功能。您可以选择绘图类型(散点图、条形图、框图等)与您的数据相对应。
不需要遍历数据表的所有行来进行计算。列上的数据操作是以元素为单位工作的。将列添加到 DataFrame
基于其他列中的现有数据是很简单的。
基本统计(平均值、中位数、最小值、最大值、计数...)是很容易计算的。这些或定制聚合可应用于整个数据集、数据的滑动窗口或按类别分组。后者也称为拆分-应用-合并方法。
Pandas对时间序列有很好的支持,并且有一套广泛的工具来处理日期、时间和时间索引数据。
数据集不仅包含数字数据。Pandas提供了广泛的功能来清理文本数据并从中提取有用的信息。
来自..。#
您熟悉其他处理表格数据的软件吗?与你已经知道的软件相比,学习Pandas的操作:
这个 R programming language 提供了 data.frame
data structure and multiple packages, such as tidyverse 使用和扩展 data.frame
用于方便的数据处理功能,类似于Pandas。
已经熟悉的 SELECT
, GROUP BY
, JOIN
等等?这些SQL操作中的大多数在Pandas身上都有类似的操作。
这个 data set
included in the STATA 统计软件套装与Pandas相对应 DataFrame
。从Stata那里了解到的许多操作在Pandas身上都有类似的操作。
用户 Excel 或者其他电子表格程序会发现,许多概念可以转移到Pandas身上。
这个 SAS 统计软件套件还提供了 data set
与Pandas相对应 DataFrame
。此外,SAS的矢量化操作、过滤、字符串处理等操作在Pandas中也具有类似的功能。
教程#
有关Pandas功能的快速概述,请参阅 10 Minutes to pandas 。
你也可以参考Pandas cheat sheet 获取有关处理Pandas数据的简明指南。
该社区提供了各种各样的在线教程。其中一些材料是征募到社区捐献的 社区教程 。