1. 序言

1.1. 关于

1.1.1. 关于这份笔记

这是的共享存储库 Learning Apache Spark Notes . PDF版本可从下载 HERE . 第一个版本是在年发布在Github上的。 ChenFeng ([Feng2017]) . 这个共享库主要包含了文强在他任职期间的自学和自学笔记。 IMA Data Science Fellowship . 读者可访问存储库https://github.com/runawayhors001/learningapachespark了解有关 dataset 以及 .ipynb 文件夹。

在这个存储库中,我尝试使用详细的演示代码和示例来演示如何使用每个主要功能。如果你发现你的作品没有被引用,请随时通知我。

虽然我决不是数据挖掘编程和大数据专家,但我决定以简单教程的形式和详细的示例来分享我对PySark编程的了解,这对我很有用。我希望这些教程对你的学习是一个有价值的工具。

本教程假设读者对编程和Linux有初步的了解。此文档是通过使用 sphinx .

1.1.2. 关于作者

  • Wenqiang Feng

    • 数据科学家和数学博士

    • 田纳西大学

    • 电子邮箱:von198@gmail.com

  • 传记

    Wenqiang Feng是DST应用分析小组的数据科学家。冯博士的职责包括为DST客户提供尖端技能和技术,包括大数据分析解决方案、高级分析和数据增强技术以及建模。

    冯博士在数据挖掘、分析系统、机器学习算法、商业智能以及应用大数据工具战略性解决跨职能企业中的行业问题方面拥有深厚的分析专业知识。在加入DST之前,冯博士是明尼苏达大学数学及其应用研究所(IMA)的IMA数据科学研究员。在那里,他帮助初创公司根据深度预测分析做出营销决策。

    冯博士毕业于田纳西大学诺克斯维尔分校,获得计算数学博士学位和统计学硕士学位。他还拥有密苏里理工大学计算数学硕士学位和中国科技大学应用数学硕士学位。

  • 声明

    Wenqiang Feng在IMA工作期间得到IMA的支持。然而,本材料中表达的任何意见、发现、结论或建议均为作者的意见、发现、结论或建议,并不一定反映IMA、UTK和DST的观点。

1.2. 本教程的动机

我的动机是 IMA Data Science Fellowship 计划学习Pyspack。在那之后,我被星星之火所吸引。我发现:

  1. 可以毫不夸张地说,Spark是最强大的BigData工具。

  2. 然而,我仍然发现学习 Spark 是一个困难的过程。我必须用谷歌搜索它,找出哪一个是真的。很难找到详细的例子,我可以很容易地在一个文件中学习整个过程。

  3. 对于研究生来说,好的资源是昂贵的。

1.4. 确认

在这里,我要感谢田纳西大学诺克斯维尔分校的陈明、孙健和李中波,感谢他们的宝贵讨论,感谢慷慨的匿名作者在互联网上提供了详细的解决方案和源代码。如果没有这些帮助,就不可能建立这个存储库。文强还想感谢 Institute for Mathematics and Its Applications (IMA)University of Minnesota, Twin Cities 在他的IMA数据科学家同事访问期间提供支持。

你要特别感谢 Dr. Haiping Lu 谢菲尔德大学计算机科学系机器学习讲师,在他的教学课上推荐并大量使用我的教程,并提供宝贵的建议。

1.5. 反馈和建议

非常感谢您的意见和建议。我非常高兴通过电子邮件(von198@gmail.com)收到改进的更正、建议或反馈。