2. 为什么要用 Python Spark?¶
中国谚语
磨刀不误砍柴工。 --中国古语
我想从以下两个部分回答这个问题:
2.1. 为什么是 Spark ?¶
我认为以下四个主要原因来自 Apache Spark™ 官方网站足以说服你使用Spark。
速度
在内存中运行程序比Hadoop MapReduce快100倍,在磁盘上运行程序比Hadoop MapReduce快10倍。
ApacheSark有一个高级的DAG执行引擎,支持非循环数据流和内存计算。
![]()
Hadoop和Spark中的逻辑回归¶
易用性
在Java、斯卡拉、Python、R.中快速编写应用程序
Spark提供了80多个高级运营商,使构建并行应用程序变得容易。您可以从scala、python和r shell交互地使用它。
概括性
将SQL、流式处理和复杂分析相结合。
spark为一堆库提供动力,包括SQL和数据帧、用于机器学习的mllib、graphx和spark流。您可以在同一个应用程序中无缝地组合这些库。
![]()
Spark 堆栈¶
处处奔跑
Spark运行在Hadoop、Meos、Standalone或云中。它可以访问各种数据源,包括HDF、Cassandra、HBase和S3。
![]()
Spark 平台¶