PySpark简介

在本章中,我们将了解Apache Spark是什么以及PySpark是如何开发的。

Spark - 概述

Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于 Apache Hadoop MapReduce 仅执行批处理并且缺乏实时处理功能,因此它开始出现。因此,引入了Apache Spark,因为它可以实时执行流处理,也可以处理批处理。

除了实时和批处理之外,Apache Spark还支持交互式查询和迭代算法。Apache Spark有自己的集群管理器,可以托管其应用程序。它利用Apache Hadoop进行存储和处理。它使用 HDFS (Hadoop分布式文件系统)进行存储,它也可以在 YARN 上运行Spark应用程序。

PySpark - 概述

Apache Spark是用 Scala编程语言 编写的。为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。使用PySpark,您也可以使用Python编程语言中的 RDD 。正是由于一个名为 Py4j 的库,他们才能实现这一目标。

PySpark提供了 PySpark Shell ,它将Python API链接到spark核心并初始化Spark上下文。今天,大多数数据科学家和分析专家都使用Python,因为它具有丰富的库集。将Python与Spark集成对他们来说是一个福音。

PySpark教程导航

PySpark简介 PySpark环境设置 PySpark SparkContext PySpark RDD PySpark广播与累积器
PySpark SparkConf PySpark SparkFiles PySpark StorageLevel PySpark MLlib PySpark Serializers
推荐教程

Python 2.7.X 手册

Python 2.7基础语法、实例讲解

Python实用手册

Python 实战演练、轻松入门

PySpark教程

Apache Spark是一个闪电般快速的实时处理框架

Seaborn教程

Seaborn是Python中的可视化库

Flask教程

Flask是一个用Python编写的Web应用程序框架

Django教程

Django是一个Web开发框架

Web2py教程

Web2py被定义为一个免费的开源Web开发框架

Scrapy教程

Scrapy是一个用Python编写的快速,开源的网页爬虫框架

Python3 教程

常被称为Python 3000,或简称Py3k

Python数据结构

算法是一步一步的指令集来处理特定用途的数据