安装#

安装Pandas的最简单方法是将其作为 Anaconda 分发，用于数据分析和科学计算的跨平台分发。这是建议大多数用户使用的安装方法。

从源代码安装的说明， PyPI ， ActivePython 、各种Linux发行版，或者一个 development version 还提供了。

对Python版本的支持#

正式发布的是Python3.8、3.9和3.10。

安装Pandas#

与 Python 一起安装#

安装Pandas和其他 NumPy 和 SciPy 堆栈对于没有经验的用户来说可能有点困难。

最简单的安装方式不仅是安装Pandas，而且是安装Python和组成 SciPy 栈 (IPython _, NumPy ， Matplotlib ，...)是与 Anaconda ，一个用于数据分析和科学计算的跨平台(Linux、MacOS、Windows)的Python发行版。

运行安装程序后，用户将可以访问Pandas和其他 SciPy 堆栈，不需要安装任何其他东西，也不需要等待任何软件编译完成。

的安装说明 Anaconda can be found here 。

中提供的包的完整列表 Anaconda 分布 can be found here 。

安装Anaconda的另一个好处是安装它不需要管理员权限。Anaconda可以安装在用户的主目录中，这使得删除Anaconda变得很容易，如果您决定的话(只需删除该文件夹)。

使用Minconda进行安装#

上一节概述了如何将Pandas安装为 Anaconda 分发。然而，这种方法意味着您将安装超过100个包，并且需要下载大小为几百MB的安装程序。

如果你想对包有更多的控制，或者有一个有限的互联网带宽，那么用 Miniconda 可能是一个更好的解决方案。

Conda 是包管理器， Anaconda 分销是建立在。它是一个与跨平台和语言无关的包管理器(它可以扮演类似于pip和Virtualenv组合的角色)。

Miniconda 允许您创建最小的自含式Python安装，然后使用 Conda 命令来安装其他程序包。

首先，您需要 Conda 要安装、下载和运行 Miniconda 会帮你做到这一点。安装程序 can be found here

下一步是创建一个新的CONDA环境。Conda环境就像一个Virtualenv，它允许您指定特定版本的Python和一组库。从终端窗口运行以下命令：

conda create -n name_of_my_env python

这将创建一个只安装了Python的最小环境。要将您自己置于此环境中，请运行：：

source activate name_of_my_env

在Windows上，该命令为：

activate name_of_my_env

所需的最后一步是安装Pandas。这可以使用以下命令来完成：

conda install pandas

要安装特定的Pandas版本：

conda install pandas=0.20.3

要安装其他程序包，例如IPython：：

conda install ipython

要安装完整的 Anaconda 分发：：

conda install anaconda

如果您需要可用于pip但不能用于conda的包，则安装pip，然后使用pip安装这些包：

conda install pip
pip install django

从PYPI安装#

Pandas可以通过管道安装，地址是 PyPI 。

备注

你一定是 pip>=19.3 要从PYPI安装。

pip install pandas

使用ActivePython进行安装#

的安装说明 ActivePython 可以找到 here 。版本2.7、3.5和3.6包括Pandas。

使用您的Linux发行版的包管理器进行安装。#

此表中的命令将从您的发行版安装适用于Python3的Pandas。

分布	状态	下载/存储库链接	安装方法
Debian	稳定	official Debian repository	`sudo apt-get install python3-pandas`
Debian和Ubuntu	不稳定(最新套餐)	NeuroDebian	`sudo apt-get install python3-pandas`
乌班图	稳定	official Ubuntu repository	`sudo apt-get install python3-pandas`
OpenSuse	稳定	OpenSuse Repository	`zypper in python3-pandas`
软呢帽	稳定	official Fedora repository	`dnf install python3-pandas`
CentOS/RHEL	稳定	EPEL repository	`yum install python3-pandas`

然而， ，Linux包管理器中的包通常落后于几个版本，因此要获得最新版本的PANAS，建议使用 pip 或 conda 上述方法。

处理导入错误#

如果遇到ImportError，通常意味着在可用库列表中找不到Pandas。Python在内部有一个目录列表，它在其中搜索以查找包。您可以使用：：获取这些目录

import sys
sys.path

您可能会遇到此错误的一种方式是，如果您的系统上安装了多个Python，而您当前使用的Python安装中没有安装Pandas。在Linux/Mac中，您可以运行 which python 在您的终端上，它会告诉您正在使用的是哪种Python安装。如果类似于“/usr/bin/python”，则您使用的是系统中的Python，这是不推荐的。

强烈建议您使用 conda ，用于快速安装以及包和依赖项更新。您可以在本文档中找到Pandas的简单安装说明： installation instructions </getting_started.html> 。

从源安装#

请参阅 contributing guide 有关从Git源代码树进行构建的完整说明。此外，请参阅 creating a development environment 如果你想创造一个Pandas发展的环境。

运行测试套件#

Pandas配备了一套详尽的单元测试，在撰写本文时覆盖了大约97%的代码库。要在您的机器上运行它以验证一切都在运行(并且您已经安装了所有的依赖项，软的和硬的)，请确保您有 pytest >=6.0和 Hypothesis >=3.58，然后运行：

>>> pd.test()
running: pytest --skip-slow --skip-network --skip-db /home/user/anaconda3/lib/python3.9/site-packages/pandas

============================= test session starts ==============================
platform linux -- Python 3.9.7, pytest-6.2.5, py-1.11.0, pluggy-1.0.0
rootdir: /home/user
plugins: dash-1.19.0, anyio-3.5.0, hypothesis-6.29.3
collected 154975 items / 4 skipped / 154971 selected
........................................................................ [  0%]
........................................................................ [ 99%]
.......................................                                  [100%]

==================================== ERRORS ====================================

=================================== FAILURES ===================================

=============================== warnings summary ===============================

=========================== short test summary info ============================

= 1 failed, 146194 passed, 7402 skipped, 1367 xfailed, 5 xpassed, 197 warnings, 10 errors in 1090.16s (0:18:10) =

这只是显示信息的一个例子。您可能会看到与上面显示的结果略有不同的结果。

依赖项#

套餐	支持的最低版本
NumPy	1.18.5
python-dateutil	2.8.1
pytz	2020.1

建议的依赖项#

numexpr ：用于加速某些数值运算。 numexpr 使用多核以及智能分块和缓存来实现大幅加速。如果已安装，则必须是2.7.1版或更高版本。
bottleneck ：用于加速某些类型的 nan 评估。 bottleneck 使用专门的cython例程来实现较大的加速。如果已安装，必须是1.3.1版或更高版本。

备注

强烈建议您安装这些库，因为它们可以提高速度，尤其是在处理大型数据集时。

可选依赖项#

Pandas有许多仅用于特定方法的可选依赖项。例如, pandas.read_hdf() 需要 pytables 套餐，而 DataFrame.to_markdown() 需要 tabulate 包裹。如果未安装可选依赖项，则Pandas将引发 ImportError 当调用需要该依赖项的方法时。

可视化#

相依性	最低版本	注意事项
Matplotlib	3.3.2	绘图库
金佳2号	2.11	使用DataFrame.style设置条件格式
制表	0.8.7	以支持降价的格式打印(请参见 tabulate )

计算#

相依性	最低版本	注意事项
SciPy	1.4.1	其他统计功能
Numba	0.50.1	用于滚动操作的替代执行引擎(请参见 Enhancing Performance )
XARRAY	0.15.1	用于N维数据的类似Pandas的API

Excel文件#

相依性	最低版本	注意事项
Xlrd	2.0.1	正在阅读Excel
超大重量	1.3.0	编写Excel
Xlsx写入器	1.2.2	编写Excel
OpenPyxl	3.0.3	读/写xlsx文件
PYXLSb	1.0.6	正在读取xlsb文件

HTML#

相依性	最低版本	注意事项
美汤4	4.8.2	用于Read_html的HTML解析器
Html5lib	1.1	用于Read_html的HTML解析器
Lxml	4.5.0	用于Read_html的HTML解析器

要使用顶层，需要以下库组合之一 read_html() 功能：

BeautifulSoup4 and html5lib
BeautifulSoup4 and lxml
BeautifulSoup4 and html5lib and lxml
仅限 lxml ，尽管请参阅 HTML Table Parsing 关于为什么你可能应该 not 采取这种方法。

警告

如果您安装 BeautifulSoup4 您必须安装以下任一 lxml 或 html5lib 或者两者兼而有之。 read_html() 将要 not 与.一起工作 only BeautifulSoup4 已安装。
我们强烈建议您阅读 HTML Table Parsing gotchas 。它解释了与上述三个库的安装和使用相关的问题。

XML#

相依性	最低版本	注意事项
Lxml	4.5.0	READ_XML的XML解析器和TO_XML的树构建器

SQL数据库#

相依性	最低版本	注意事项
SQLAlchemy	1.4.0	对除SQLite之外的数据库的SQL支持
心理拷贝2	2.8.4	适用于SQLALCHEMY的PostgreSQL引擎
Pymysql	0.10.1	用于SQLALCHEMY的MySQL引擎

其他数据源#

相依性	最低版本	注意事项
PyTables	3.6.1	基于HDF5的读写
鲜花	1.20.1	HDF5压缩
兹利布		HDF5压缩
实木地板	0.4.0	镶木地板读/写
绿箭侠	1.0.1	拼花、兽人和羽毛阅读/写作
吡咯烷酮	1.1.0	SPSS文件(.sav)读取

警告

如果您想使用 read_orc() ，强烈建议使用conda安装pyrow。以下是以下环境的摘要 read_orc() 能行得通。

系统

孔达

PyPI

Linux操作系统

成功

失败(yarrow==3.0成功)

MacOS

成功

失败

窗口

失败

失败

系统	孔达	PyPI
Linux操作系统	成功	失败(yarrow==3.0成功)
MacOS	成功	失败
窗口	失败	失败

访问云中的数据#

相依性	最低版本	注意事项
FsSpec	0.7.4	除简单的本地和HTTP外还处理文件
Gcsf	0.6.0	Google云存储访问权限
Pandas-Gbq	0.14.0	Google大查询访问
S3FS	0.4.0	Amazon S3访问

剪贴板#

相依性	最低版本	注意事项
PyQt4/PyQt5		剪贴板I/O
Qtpy		剪贴板I/O
外部剪裁		Linux上的剪贴板I/O
XSEL		Linux上的剪贴板I/O

压缩#

相依性	最低版本	注意事项
肉鸡	0.7.0	Brotli压缩
Python --时髦	0.6.0	快速压缩
Z标准	0.15.2	Z标准压缩

快速入门

程序包概述