spark基础知识介绍

Spark是一种开源集群计算环境，与Hadoop相似但又有所不同。Apache Spark最初是由加州大学伯克利分销的AMP实验室开发出来的，后来成为Apache的开源项目之一，作为专门为大规模数据处理而设计的快速通用型计算引擎来使用。与MapReduce技术相比，Spark有着多种优势，如提供了统一全面的框架、大大提高了应用运行速度、可以快速使用Java等语言来编写程序等，目前Spark形成一个应用广泛、发展高速的生态系统。接下来就让我们一起来了解下Spark的性能特点、运行模式、运行特点以及体系架构等知识。

spark性能特点

1、专注性。由于高级API剥离了对于集群本身的关注，所以spark开发者可以专注于应用所需要做的计算本身。
2、速度快。Spark支持复杂算法和交互式计算，运行速度快。
3、通用性。Spark是一个通用引擎，因此可以用来完成如文本处理、SQL查询等运算。
4、支持多种资源管理器。如Hadoop YARN、Apache Mesos等管理器都支持使用。
spark运行模式

1、spark的运行模式是多种多样的，并不限于一种，可以按需选择。
2、以单机方式部署时，spark可以用本地模式运行或者伪分布模式运行。
3、部署在分布式集群时，也可以根据集群的实际选择不同的运行模式。底层资源调度既可以使用spark內建的独立集群运行模式，也可以依赖外部资源调度框架。
spark运行特点

1、除非在外部存储系统写入数据，否则Spark Application就不能跨应用共享数据。
2、spark的运行和资源管理器是没有关系的，只需获取executor进程并保持通信即可。
3、提交SparkContext的Client需靠近运行Executor的节点，而且最好在同一个Rack里。
4、Task采用的优化机制是数据本地性和准侧执行。
spark体系架构

Spark体系架构主要有三个组件。
1、数据存储。Spark使用HDFS文件系统来存储数据。
2、资源管理。Spark有多种不同的部署方式，可以部署在一个单独服务器上，也可以部署在分布式计算框架上，如Mesos等。
3、API。Spark提供三种程序设计语言的API，分别是Java、Scala和Python。开发者可以利用标准的API接口来创建基于Spark的应用。
spark与hadoop的关系

1、spark自身是没有提供分布式文件系统的，其分析大部分都需要依赖于Hadoop的分布式文件系统，也就是HDFS。
2、Mapreduce是Hadoop的分布式计算模块，Mapreduce和spark都可以计算数据，但Mapreduce比spark速度要慢一些，且功能也不如spark丰富。
3、spark可以看作是Hadoop MapReduce的替代品，用来提供一个全面、统一的管理大数据用例和需求的解决方案。

spark基础知识介绍

spark性能特点

spark运行模式

spark运行特点

spark体系架构

spark与hadoop的关系