首页 >服务支持 > 营销知识 > 程序员 > spark基础知识介绍

spark基础知识介绍

spark基础知识介绍

Spark是一种开源集群计算环境,与Hadoop相似但又有所不同。Apache Spark最初是由加州大学伯克利分销的AMP实验室开发出来的,后来成为Apache的开源项目之一,作为专门为大规模数据处理而设计的快速通用型计算引擎来使用。与MapReduce技术相比,Spark有着多种优势,如提供了统一全面的框架、大大提高了应用运行速度、可以快速使用Java等语言来编写程序等,目前Spark形成一个应用广泛、发展高速的生态系统。接下来就让我们一起来了解下Spark的性能特点、运行模式、运行特点以及体系架构等知识。

目录

1. spark性能特点

2. spark运行模式

3. spark运行特点

4. spark体系架构

5. spark与hadoop的关系

  • spark性能特点

    spark性能特点

    1、专注性。由于高级API剥离了对于集群本身的关注,所以spark开发者可以专注于应用所需要做的计算本身。
    2、速度快。Spark支持复杂算法和交互式计算,运行速度快。
    3、通用性。Spark是一个通用引擎,因此可以用来完成如文本处理、SQL查询等运算。
    4、支持多种资源管理器。如Hadoop YARN、Apache Mesos等管理器都支持使用。

  • spark运行模式

    spark运行模式

    1、spark的运行模式是多种多样的,并不限于一种,可以按需选择。
    2、以单机方式部署时,spark可以用本地模式运行或者伪分布模式运行。
    3、部署在分布式集群时,也可以根据集群的实际选择不同的运行模式。底层资源调度既可以使用spark內建的独立集群运行模式,也可以依赖外部资源调度框架。

  • spark运行特点

    spark运行特点

    1、除非在外部存储系统写入数据,否则Spark Application就不能跨应用共享数据。
    2、spark的运行和资源管理器是没有关系的,只需获取executor进程并保持通信即可。
    3、提交SparkContext的Client需靠近运行Executor的节点,而且最好在同一个Rack里。
    4、Task采用的优化机制是数据本地性和准侧执行。

  • spark体系架构

    spark体系架构

    Spark体系架构主要有三个组件。
    1、数据存储。Spark使用HDFS文件系统来存储数据。
    2、资源管理。Spark有多种不同的部署方式,可以部署在一个单独服务器上,也可以部署在分布式计算框架上,如Mesos等。
    3、API。Spark提供三种程序设计语言的API,分别是Java、Scala和Python。开发者可以利用标准的API接口来创建基于Spark的应用。

  • spark与hadoop的关系

    spark与hadoop的关系

    1、spark自身是没有提供分布式文件系统的,其分析大部分都需要依赖于Hadoop的分布式文件系统,也就是HDFS。
    2、Mapreduce是Hadoop的分布式计算模块,Mapreduce和spark都可以计算数据,但Mapreduce比spark速度要慢一些,且功能也不如spark丰富。
    3、spark可以看作是Hadoop MapReduce的替代品,用来提供一个全面、统一的管理大数据用例和需求的解决方案。

img

在线咨询

建站在线咨询

img

微信咨询

扫一扫添加
动力姐姐微信

img
img

TOP