安装#
安装Pandas的最简单方法是将其作为 Anaconda 分发,用于数据分析和科学计算的跨平台分发。这是建议大多数用户使用的安装方法。
从源代码安装的说明, PyPI , ActivePython 、各种Linux发行版,或者一个 development version 还提供了。
对Python版本的支持#
正式发布的是Python3.8、3.9和3.10。
安装Pandas#
与 Python 一起安装#
安装Pandas和其他 NumPy 和 SciPy 堆栈对于没有经验的用户来说可能有点困难。
最简单的安装方式不仅是安装Pandas,而且是安装Python和组成 SciPy 栈 (IPython _, NumPy , Matplotlib ,...)是与 Anaconda ,一个用于数据分析和科学计算的跨平台(Linux、MacOS、Windows)的Python发行版。
运行安装程序后,用户将可以访问Pandas和其他 SciPy 堆栈,不需要安装任何其他东西,也不需要等待任何软件编译完成。
的安装说明 Anaconda can be found here 。
中提供的包的完整列表 Anaconda 分布 can be found here 。
安装Anaconda的另一个好处是安装它不需要管理员权限。Anaconda可以安装在用户的主目录中,这使得删除Anaconda变得很容易,如果您决定的话(只需删除该文件夹)。
使用Minconda进行安装#
上一节概述了如何将Pandas安装为 Anaconda 分发。然而,这种方法意味着您将安装超过100个包,并且需要下载大小为几百MB的安装程序。
如果你想对包有更多的控制,或者有一个有限的互联网带宽,那么用 Miniconda 可能是一个更好的解决方案。
Conda 是包管理器, Anaconda 分销是建立在。它是一个与跨平台和语言无关的包管理器(它可以扮演类似于pip和Virtualenv组合的角色)。
Miniconda 允许您创建最小的自含式Python安装,然后使用 Conda 命令来安装其他程序包。
首先,您需要 Conda 要安装、下载和运行 Miniconda 会帮你做到这一点。安装程序 can be found here
下一步是创建一个新的CONDA环境。Conda环境就像一个Virtualenv,它允许您指定特定版本的Python和一组库。从终端窗口运行以下命令:
conda create -n name_of_my_env python
这将创建一个只安装了Python的最小环境。要将您自己置于此环境中,请运行::
source activate name_of_my_env
在Windows上,该命令为:
activate name_of_my_env
所需的最后一步是安装Pandas。这可以使用以下命令来完成:
conda install pandas
要安装特定的Pandas版本:
conda install pandas=0.20.3
要安装其他程序包,例如IPython::
conda install ipython
要安装完整的 Anaconda 分发::
conda install anaconda
如果您需要可用于pip但不能用于conda的包,则安装pip,然后使用pip安装这些包:
conda install pip
pip install django
从PYPI安装#
Pandas可以通过管道安装,地址是 PyPI 。
备注
你一定是 pip>=19.3
要从PYPI安装。
pip install pandas
使用ActivePython进行安装#
的安装说明 ActivePython 可以找到 here 。版本2.7、3.5和3.6包括Pandas。
使用您的Linux发行版的包管理器进行安装。#
此表中的命令将从您的发行版安装适用于Python3的Pandas。
分布 |
状态 |
下载/存储库链接 |
安装方法 |
---|---|---|---|
Debian |
稳定 |
|
|
Debian和Ubuntu |
不稳定(最新套餐) |
|
|
乌班图 |
稳定 |
|
|
OpenSuse |
稳定 |
|
|
软呢帽 |
稳定 |
|
|
CentOS/RHEL |
稳定 |
|
然而, ,Linux包管理器中的包通常落后于几个版本,因此要获得最新版本的PANAS,建议使用 pip
或 conda
上述方法。
处理导入错误#
如果遇到ImportError,通常意味着在可用库列表中找不到Pandas。Python在内部有一个目录列表,它在其中搜索以查找包。您可以使用::获取这些目录
import sys
sys.path
您可能会遇到此错误的一种方式是,如果您的系统上安装了多个Python,而您当前使用的Python安装中没有安装Pandas。在Linux/Mac中,您可以运行 which python
在您的终端上,它会告诉您正在使用的是哪种Python安装。如果类似于“/usr/bin/python”,则您使用的是系统中的Python,这是不推荐的。
强烈建议您使用 conda
,用于快速安装以及包和依赖项更新。您可以在本文档中找到Pandas的简单安装说明: installation instructions </getting_started.html>
。
从源安装#
请参阅 contributing guide 有关从Git源代码树进行构建的完整说明。此外,请参阅 creating a development environment 如果你想创造一个Pandas发展的环境。
运行测试套件#
Pandas配备了一套详尽的单元测试,在撰写本文时覆盖了大约97%的代码库。要在您的机器上运行它以验证一切都在运行(并且您已经安装了所有的依赖项,软的和硬的),请确保您有 pytest >=6.0和 Hypothesis >=3.58,然后运行:
>>> pd.test()
running: pytest --skip-slow --skip-network --skip-db /home/user/anaconda3/lib/python3.9/site-packages/pandas
============================= test session starts ==============================
platform linux -- Python 3.9.7, pytest-6.2.5, py-1.11.0, pluggy-1.0.0
rootdir: /home/user
plugins: dash-1.19.0, anyio-3.5.0, hypothesis-6.29.3
collected 154975 items / 4 skipped / 154971 selected
........................................................................ [ 0%]
........................................................................ [ 99%]
....................................... [100%]
==================================== ERRORS ====================================
=================================== FAILURES ===================================
=============================== warnings summary ===============================
=========================== short test summary info ============================
= 1 failed, 146194 passed, 7402 skipped, 1367 xfailed, 5 xpassed, 197 warnings, 10 errors in 1090.16s (0:18:10) =
这只是显示信息的一个例子。您可能会看到与上面显示的结果略有不同的结果。
依赖项#
套餐 |
支持的最低版本 |
---|---|
1.18.5 |
|
2.8.1 |
|
2020.1 |
建议的依赖项#
numexpr :用于加速某些数值运算。
numexpr
使用多核以及智能分块和缓存来实现大幅加速。如果已安装,则必须是2.7.1版或更高版本。bottleneck :用于加速某些类型的
nan
评估。bottleneck
使用专门的cython例程来实现较大的加速。如果已安装,必须是1.3.1版或更高版本。
备注
强烈建议您安装这些库,因为它们可以提高速度,尤其是在处理大型数据集时。
可选依赖项#
Pandas有许多仅用于特定方法的可选依赖项。例如, pandas.read_hdf()
需要 pytables
套餐,而 DataFrame.to_markdown()
需要 tabulate
包裹。如果未安装可选依赖项,则Pandas将引发 ImportError
当调用需要该依赖项的方法时。
可视化#
相依性 |
最低版本 |
注意事项 |
---|---|---|
Matplotlib |
3.3.2 |
绘图库 |
金佳2号 |
2.11 |
使用DataFrame.style设置条件格式 |
制表 |
0.8.7 |
以支持降价的格式打印(请参见 tabulate ) |
计算#
相依性 |
最低版本 |
注意事项 |
---|---|---|
SciPy |
1.4.1 |
其他统计功能 |
Numba |
0.50.1 |
用于滚动操作的替代执行引擎(请参见 Enhancing Performance ) |
XARRAY |
0.15.1 |
用于N维数据的类似Pandas的API |
Excel文件#
相依性 |
最低版本 |
注意事项 |
---|---|---|
Xlrd |
2.0.1 |
正在阅读Excel |
超大重量 |
1.3.0 |
编写Excel |
Xlsx写入器 |
1.2.2 |
编写Excel |
OpenPyxl |
3.0.3 |
读/写xlsx文件 |
PYXLSb |
1.0.6 |
正在读取xlsb文件 |
HTML#
相依性 |
最低版本 |
注意事项 |
---|---|---|
美汤4 |
4.8.2 |
用于Read_html的HTML解析器 |
Html5lib |
1.1 |
用于Read_html的HTML解析器 |
Lxml |
4.5.0 |
用于Read_html的HTML解析器 |
要使用顶层,需要以下库组合之一 read_html()
功能:
BeautifulSoup4 and lxml
BeautifulSoup4 and html5lib and lxml
仅限 lxml ,尽管请参阅 HTML Table Parsing 关于为什么你可能应该 not 采取这种方法。
警告
如果您安装 BeautifulSoup4 您必须安装以下任一 lxml 或 html5lib 或者两者兼而有之。
read_html()
将要 not 与.一起工作 only BeautifulSoup4 已安装。我们强烈建议您阅读 HTML Table Parsing gotchas 。它解释了与上述三个库的安装和使用相关的问题。
XML#
相依性 |
最低版本 |
注意事项 |
---|---|---|
Lxml |
4.5.0 |
READ_XML的XML解析器和TO_XML的树构建器 |
SQL数据库#
相依性 |
最低版本 |
注意事项 |
---|---|---|
SQLAlchemy |
1.4.0 |
对除SQLite之外的数据库的SQL支持 |
心理拷贝2 |
2.8.4 |
适用于SQLALCHEMY的PostgreSQL引擎 |
Pymysql |
0.10.1 |
用于SQLALCHEMY的MySQL引擎 |
其他数据源#
相依性 |
最低版本 |
注意事项 |
---|---|---|
PyTables |
3.6.1 |
基于HDF5的读写 |
鲜花 |
1.20.1 |
HDF5压缩 |
兹利布 |
HDF5压缩 |
|
实木地板 |
0.4.0 |
镶木地板读/写 |
绿箭侠 |
1.0.1 |
拼花、兽人和羽毛阅读/写作 |
吡咯烷酮 |
1.1.0 |
SPSS文件(.sav)读取 |
警告
如果您想使用
read_orc()
,强烈建议使用conda安装pyrow。以下是以下环境的摘要read_orc()
能行得通。系统
孔达
PyPI
Linux操作系统
成功
失败(yarrow==3.0成功)
MacOS
成功
失败
窗口
失败
失败
访问云中的数据#
相依性 |
最低版本 |
注意事项 |
---|---|---|
FsSpec |
0.7.4 |
除简单的本地和HTTP外还处理文件 |
Gcsf |
0.6.0 |
Google云存储访问权限 |
Pandas-Gbq |
0.14.0 |
Google大查询访问 |
S3FS |
0.4.0 |
Amazon S3访问 |
剪贴板#
相依性 |
最低版本 |
注意事项 |
---|---|---|
PyQt4/PyQt5 |
剪贴板I/O |
|
Qtpy |
剪贴板I/O |
|
外部剪裁 |
Linux上的剪贴板I/O |
|
XSEL |
Linux上的剪贴板I/O |
压缩#
相依性 |
最低版本 |
注意事项 |
---|---|---|
肉鸡 |
0.7.0 |
Brotli压缩 |
Python --时髦 |
0.6.0 |
快速压缩 |
Z标准 |
0.15.2 |
Z标准压缩 |