Spark概述及安装

发布于：2025-04-09 ⋅ 阅读:(127) ⋅ 点赞:(0)

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Spark 出现的时间相对较晚，并且主要功能主要是用于数据计算，所以其实 Spark 一直被认为是 Hadoop 框架的升级版。

Spark和Hadoop的根本差异是多个作业之间的数据通信问题 : Spark多个作业之间数据通信是基于内存，而 Hadoop 是基于磁盘。Spark 并不能完全替代 MR。

Spark核心模块：Spark Core，Spark SQL ，Spark Streaming ，Spark MLlib ，Spark GraphX

Local 模式

所谓的 Local 模式，就是不需要其他任何节点资源就可以在本地执行 Spark 代码的环境，一般用于教学，调试，演示等。

Standalone 模式

local 本地模式毕竟只是用来进行练习演示的，真实工作中还是要将应用提交到对应的集群中去执行，Spark 的 Standalone 模式体现了经典的 master-slave 模式。

Yarn 模式

独立部署（Standalone）模式由 Spark 自身提供计算资源，无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。

K8S & Mesos 模式

Mesos 是 Apache 下的开源分布式资源管理框架，它被称为是分布式系统的内核,在Twitter 得到广泛使用,管理着 Twitter 超过 30,0000 台服务器上的应用部署

Windows 模式

Spark 提供了可以在 windows 系统下启动本地集群的方式，这样，在不使用虚拟机的情况下，也能学习 Spark 的基本使用。

端口号：

Spark 查看当前 Spark-shell 运行任务情况端口号：4040（计算）

Spark Master 内部通信服务端口号：7077

Standalone 模式下，Spark Master Web 端口号：8080（资源）

Spark 历史服务器端口号：18080

Hadoop YARN 任务运行情况查看端口号：8088

安装spark：

[root@lpy01 ~]# cd /opt/software/spark/

[root@lpy01 spark]# ll

总用量 103932

drwxr-xr-x 13 root root 4096 11月 28 17:18 spark-2.0.0-bin-hadoop2-without-hive

-rw-r--r-- 1 root root 106418783 11月 22 20:14 spark-2.0.0-bin-hadoop2-without-hive.tgz

[root@lpy01 spark]# cd spark-2.0.0-bin-hadoop2-without-hive/

[root@lpy01 spark-2.0.0-bin-hadoop2-without-hive]# bin/spark-shell

启动成功，进行页面访问

[root@lpy01 spark-2.0.0-bin-hadoop2-without-hive]# cd data/

[root@lpy01 data]# vi word.txt

[root@lpy01 data]# cat word.txt

Hello scala

Hello spark