安装#

安装Pandas的最简单方法是将其作为 Anaconda 分发,用于数据分析和科学计算的跨平台分发。这是建议大多数用户使用的安装方法。

从源代码安装的说明, PyPIActivePython 、各种Linux发行版,或者一个 development version 还提供了。

对Python版本的支持#

正式发布的是Python3.8、3.9和3.10。

安装Pandas#

与 Python 一起安装#

安装Pandas和其他 NumPySciPy 堆栈对于没有经验的用户来说可能有点困难。

最简单的安装方式不仅是安装Pandas,而且是安装Python和组成 SciPy 栈 (IPython _, NumPyMatplotlib ,...)是与 Anaconda ,一个用于数据分析和科学计算的跨平台(Linux、MacOS、Windows)的Python发行版。

运行安装程序后,用户将可以访问Pandas和其他 SciPy 堆栈,不需要安装任何其他东西,也不需要等待任何软件编译完成。

的安装说明 Anaconda can be found here

中提供的包的完整列表 Anaconda 分布 can be found here

安装Anaconda的另一个好处是安装它不需要管理员权限。Anaconda可以安装在用户的主目录中,这使得删除Anaconda变得很容易,如果您决定的话(只需删除该文件夹)。

使用Minconda进行安装#

上一节概述了如何将Pandas安装为 Anaconda 分发。然而,这种方法意味着您将安装超过100个包,并且需要下载大小为几百MB的安装程序。

如果你想对包有更多的控制,或者有一个有限的互联网带宽,那么用 Miniconda 可能是一个更好的解决方案。

Conda 是包管理器, Anaconda 分销是建立在。它是一个与跨平台和语言无关的包管理器(它可以扮演类似于pip和Virtualenv组合的角色)。

Miniconda 允许您创建最小的自含式Python安装,然后使用 Conda 命令来安装其他程序包。

首先,您需要 Conda 要安装、下载和运行 Miniconda 会帮你做到这一点。安装程序 can be found here

下一步是创建一个新的CONDA环境。Conda环境就像一个Virtualenv,它允许您指定特定版本的Python和一组库。从终端窗口运行以下命令:

conda create -n name_of_my_env python

这将创建一个只安装了Python的最小环境。要将您自己置于此环境中,请运行::

source activate name_of_my_env

在Windows上,该命令为:

activate name_of_my_env

所需的最后一步是安装Pandas。这可以使用以下命令来完成:

conda install pandas

要安装特定的Pandas版本:

conda install pandas=0.20.3

要安装其他程序包,例如IPython::

conda install ipython

要安装完整的 Anaconda 分发::

conda install anaconda

如果您需要可用于pip但不能用于conda的包,则安装pip,然后使用pip安装这些包:

conda install pip
pip install django

从PYPI安装#

Pandas可以通过管道安装,地址是 PyPI

备注

你一定是 pip>=19.3 要从PYPI安装。

pip install pandas

使用ActivePython进行安装#

的安装说明 ActivePython 可以找到 here 。版本2.7、3.5和3.6包括Pandas。

使用您的Linux发行版的包管理器进行安装。#

此表中的命令将从您的发行版安装适用于Python3的Pandas。

分布

状态

下载/存储库链接

安装方法

Debian

稳定

official Debian repository

sudo apt-get install python3-pandas

Debian和Ubuntu

不稳定(最新套餐)

NeuroDebian

sudo apt-get install python3-pandas

乌班图

稳定

official Ubuntu repository

sudo apt-get install python3-pandas

OpenSuse

稳定

OpenSuse Repository

zypper in python3-pandas

软呢帽

稳定

official Fedora repository

dnf install python3-pandas

CentOS/RHEL

稳定

EPEL repository

yum install python3-pandas

然而, ,Linux包管理器中的包通常落后于几个版本,因此要获得最新版本的PANAS,建议使用 pipconda 上述方法。

处理导入错误#

如果遇到ImportError,通常意味着在可用库列表中找不到Pandas。Python在内部有一个目录列表,它在其中搜索以查找包。您可以使用::获取这些目录

import sys
sys.path

您可能会遇到此错误的一种方式是,如果您的系统上安装了多个Python,而您当前使用的Python安装中没有安装Pandas。在Linux/Mac中,您可以运行 which python 在您的终端上,它会告诉您正在使用的是哪种Python安装。如果类似于“/usr/bin/python”,则您使用的是系统中的Python,这是不推荐的。

强烈建议您使用 conda ,用于快速安装以及包和依赖项更新。您可以在本文档中找到Pandas的简单安装说明: installation instructions </getting_started.html>

从源安装#

请参阅 contributing guide 有关从Git源代码树进行构建的完整说明。此外,请参阅 creating a development environment 如果你想创造一个Pandas发展的环境。

运行测试套件#

Pandas配备了一套详尽的单元测试,在撰写本文时覆盖了大约97%的代码库。要在您的机器上运行它以验证一切都在运行(并且您已经安装了所有的依赖项,软的和硬的),请确保您有 pytest >=6.0和 Hypothesis >=3.58,然后运行:

>>> pd.test()
running: pytest --skip-slow --skip-network --skip-db /home/user/anaconda3/lib/python3.9/site-packages/pandas

============================= test session starts ==============================
platform linux -- Python 3.9.7, pytest-6.2.5, py-1.11.0, pluggy-1.0.0
rootdir: /home/user
plugins: dash-1.19.0, anyio-3.5.0, hypothesis-6.29.3
collected 154975 items / 4 skipped / 154971 selected
........................................................................ [  0%]
........................................................................ [ 99%]
.......................................                                  [100%]

==================================== ERRORS ====================================

=================================== FAILURES ===================================

=============================== warnings summary ===============================

=========================== short test summary info ============================

= 1 failed, 146194 passed, 7402 skipped, 1367 xfailed, 5 xpassed, 197 warnings, 10 errors in 1090.16s (0:18:10) =

这只是显示信息的一个例子。您可能会看到与上面显示的结果略有不同的结果。

依赖项#

套餐

支持的最低版本

NumPy

1.18.5

python-dateutil

2.8.1

pytz

2020.1

可选依赖项#

Pandas有许多仅用于特定方法的可选依赖项。例如, pandas.read_hdf() 需要 pytables 套餐,而 DataFrame.to_markdown() 需要 tabulate 包裹。如果未安装可选依赖项,则Pandas将引发 ImportError 当调用需要该依赖项的方法时。

可视化#

相依性

最低版本

注意事项

Matplotlib

3.3.2

绘图库

金佳2号

2.11

使用DataFrame.style设置条件格式

制表

0.8.7

以支持降价的格式打印(请参见 tabulate )

计算#

相依性

最低版本

注意事项

SciPy

1.4.1

其他统计功能

Numba

0.50.1

用于滚动操作的替代执行引擎(请参见 Enhancing Performance )

XARRAY

0.15.1

用于N维数据的类似Pandas的API

Excel文件#

相依性

最低版本

注意事项

Xlrd

2.0.1

正在阅读Excel

超大重量

1.3.0

编写Excel

Xlsx写入器

1.2.2

编写Excel

OpenPyxl

3.0.3

读/写xlsx文件

PYXLSb

1.0.6

正在读取xlsb文件

HTML#

相依性

最低版本

注意事项

美汤4

4.8.2

用于Read_html的HTML解析器

Html5lib

1.1

用于Read_html的HTML解析器

Lxml

4.5.0

用于Read_html的HTML解析器

要使用顶层,需要以下库组合之一 read_html() 功能:

警告

XML#

相依性

最低版本

注意事项

Lxml

4.5.0

READ_XML的XML解析器和TO_XML的树构建器

SQL数据库#

相依性

最低版本

注意事项

SQLAlchemy

1.4.0

对除SQLite之外的数据库的SQL支持

心理拷贝2

2.8.4

适用于SQLALCHEMY的PostgreSQL引擎

Pymysql

0.10.1

用于SQLALCHEMY的MySQL引擎

其他数据源#

相依性

最低版本

注意事项

PyTables

3.6.1

基于HDF5的读写

鲜花

1.20.1

HDF5压缩

兹利布

HDF5压缩

实木地板

0.4.0

镶木地板读/写

绿箭侠

1.0.1

拼花、兽人和羽毛阅读/写作

吡咯烷酮

1.1.0

SPSS文件(.sav)读取

警告

  • 如果您想使用 read_orc() ,强烈建议使用conda安装pyrow。以下是以下环境的摘要 read_orc() 能行得通。

    系统

    孔达

    PyPI

    Linux操作系统

    成功

    失败(yarrow==3.0成功)

    MacOS

    成功

    失败

    窗口

    失败

    失败

访问云中的数据#

相依性

最低版本

注意事项

FsSpec

0.7.4

除简单的本地和HTTP外还处理文件

Gcsf

0.6.0

Google云存储访问权限

Pandas-Gbq

0.14.0

Google大查询访问

S3FS

0.4.0

Amazon S3访问

剪贴板#

相依性

最低版本

注意事项

PyQt4/PyQt5

剪贴板I/O

Qtpy

剪贴板I/O

外部剪裁

Linux上的剪贴板I/O

XSEL

Linux上的剪贴板I/O

压缩#

相依性

最低版本

注意事项

肉鸡

0.7.0

Brotli压缩

Python --时髦

0.6.0

快速压缩

Z标准

0.15.2

Z标准压缩