目录
- Ⅰ Python基础
- 1. Python入门
- 2. 流程控制
- 3. Python函数使用
- 4. Python中的列表
- 5. 字典
- 6. Python中的字符串
- 7. 异常处理
- Ⅱ Python 进阶
- Ⅲ Python常用类库
- 1. 正则表达式
- 2. 文件读写
- 3. 文件操作
- 4. CSV与JSON
- 5. 日期与时间
- 6. 文本文件
- Ⅳ Python日常工具
- 1. 用 Python 处理电子表格
- 2. DOCX 文档解析与处理
- 3. 用Python进行图像处理
- 4. 使用Python处理PDF文档
- 5. Web信息解析与处理
- 6. Web信息生成与发布
- 7. 自动化Email处理
- 8. 杂项
- Ⅴ 专题
- 1. Pillow图像处理
- 2. OpenCV处理
- 3. 数据库自动化报表处理:使用SQLite
- 4. Python和Web
- 5. Web信息处理
- 6. Web模板引擎
- 7. XML 处理
- Ⅵ 图像处理:使用scikit-image
- 1. skimage数字图像处理基础
- 2. skimage数字图像处理中级
- 3. skimage数字图像处理高级
- Ⅶ 科学计算
- 1. NumPy数值计算
- 2. SciPy科学类库
- 3. SymPy符号运算
- 4. Matplotlib绘图
- 5. Pandas 第一部分
- 6. Pandas 第二部分
- 6.1. Pandas排序
- 6.2. Pandas字符串和文本数据
- lower()函数示例
- upper()函数示例
- len()函数示例
- strip()函数示例
- split(pattern)函数示例
- cat(sep=pattern)函数示例
- get_dummies()函数示例
- contains()函数示例
- replace(a,b)函数示例
- repeat(value)函数示例
- count(pattern)函数示例
- startswith(pattern)函数示例
- endswith(pattern)函数示例
- find(pattern)函数示例
- findall(pattern)函数示例
- swapcase()函数示例
- islower()函数示例
- isupper()函数示例
- isnumeric()函数示例
- 6.3. Pandas选项和自定义
- 6.4. Pandas索引和选择数据
- 6.5. Pandas统计函数
- 6.6. Pandas窗口函数
- 6.7. Pandas聚合
- 6.8. Pandas缺失数据
- 6.9. Pandas分组(GroupBy)
- 6.10. Pandas合并/连接
- 6.11. Pandas级联
- 7. Pandas 第三部分
- Ⅷ 自然语言与知识图谱
上一个主题
下一个主题
1.1. 电子表格的介绍¶
电子表格可以输入输出、显示数据,也利用公式计算一些简单的加减法。 可以帮助用户制作各种复杂的表格文档,进行繁琐的数据计算, 并能对输入的数据进行各种复杂统计运算后显示为可视性极佳的表格, 同时它还能形象地将大量枯燥无味的数据变为多种漂亮的彩色商业图表显示出来,极大地增强了数据的可视性。 另外,电子表格还能将各种统计报告和统计图打印出来。 EXCEL是微软OFFICE软件中的电子表格组件,其做出的表格是电子表格中的一种, 除此以外还有国产的CCED、金山WPS中的电子表格等。
不同软件厂商的电子表格¶
VisiCalc是第一个电子表格程序,用于苹果II型电脑。
Lotus 1-2-3是用于IBM PC上DOS时代主要的电子表格程序。
Numbers和Excel分别是Mac OS X和Windows系统上主要的电子表格程序。
Calc是可在多种平台上运行的Open Office与- LibreOffice中的电子表格程序。它可以用于计算,统计,做出预言,设计表格等功能。
微软电子表格的发展¶
第一阶段
1982年,微软发布它的第一个电子表格MultiPlan。 从某种角度来说今天的微软Excel是从MultiPlan发展出来的,于1985年在Macsh上引进。 就像所有的Mac程序一样,Excel是一个图形界面的程序。 1987年11月,微软发布了第一个Excel的Windows版本(名为Excel2.0以与Macsh版本相一致)。 因为在那个时候Windows还未被广泛使用。
第二阶段
1997年初,微软发布了Office97,其中包括Excel97。Excel97也就是Excel8。 这个包括了很多的增强功能,并提供了VBA程序开发的一个全新的界面。 Excel2000在1999年尾发布,作为Office2000的一部分发售。 Excel2000中的增强功能主要体现在互联网上,在编程方面也有一部分很重要的改变。 发布于2003年秋天的Excel2003是中国用户数量最大的版本,至今历久弥香, 由于长时间的使用习惯,目前仍是中国用户首选的Excel版本,具备广泛的用户基础。 但在国外客户看来,Excel2003可能是最失望的一次更新。这个版本没有什么新的功能。 微软加入了导入导出XML文件并在一个工作表中映射数据到指定单元格的功能,但实际上很少有用户需要这种功能。 另外,微软引进了“权限管理”的功能,让你在工作簿在不同部分设置限制(例如,只允许指定用户查看特定的工作表), 虽然很多用户还没有发现这个功能的玄机和用途,但毕竟是Excel版本升级后走出的重要一步。
第三阶段
升级到Excel 2007的操作界面,用户界面完全重新设计。菜单和工具栏被新的RibbonUI代替。 Excel2007的单元格数量是之前版本的1000倍,使用了一个新的开放XML文件格式。 其它的改善包括改进的表格,增强的条件格式,图表样式的增强以及文档主题。
XLSX文件格式¶
xlsx
是Microsoft Office EXCEL 2007之后版本文档的扩展名。
其基于Office Open XML标准的压缩文件格式取代了其以前专有的默认文件格式,
在传统的文件名扩展名后面添加了字母“x”(即“.docx”取代“.doc”、“.xlsx”取代“.xls”、“.pptx”取代“.ppt”)。
任何能够打开“.xlsx”文件的文字处理软件都可以将该文档转换为“.xls”文件,“.xlsx”文件比“.xls”文件所占用空间更小。
“.xlsx”格式的文件本质上是一个ZIP文件。将一个“.xlsx”文件的后缀改为ZIP后是可以用解压工具打开或是解压的。 事实上,Word2007的基本文件就是ZIP格式的,可以算作是“.xlsx”文件的容器。 “.xlsx”格式文件的主要内容是保存为XML格式的,但文件并非直接保存于磁盘。 它是保存在一个ZIP文件中,然后取扩展名为“.xlsx”。 将“.xlsx”格式的文件后缀改为ZIP后解压, 可以看到解压出来的文件夹中有word这样一个文件夹, 它包含了Word文档的大部分内容。 而其中的document.xml文件则包含了文档的主要文本内容。
Python 处理电子表格的模块¶
能实现Python对excel文件的读写功能的模块有以下三种:
xlwt:对
xls
格式的 Excel 文件进行写入;xlrd:对
xls
格式的 Excel 文件进行读取;OpenpPyXL 实现了对
xlsm
、xlsx
开放电子表格格式的读写。
本书中只对 XLSX 这种开放文件格式进行处理,用到 OpenpyXL 模块。