中小型企业大数据平台全栈搭建:Hive+HDFS+YARN+Hue+ZooKeeper+MySQL+Sqoop+Azkaban 保姆级配置指南

发布于:2025-03-16 ⋅ 阅读:(18) ⋅ 点赞:(0)

背景‌

对于中小企业,构建一套完整的本地化大数据平台需兼顾成本(5w内)、易用性和扩展性。基于Hadoop生态的组件(HDFS、YARN、Hive)结合数据工具(Sqoop、Azkaban)、可视化工具(Hue)和协调服务(ZooKeeper),能够实现从数据存储、计算、调度到可视化的全链路管理。
本文基于生产环境实践,详细讲解以下组件的安装、配置与联动:

  • 存储与计算‌:HDFS、YARN、Hive
  • 数据迁移‌:Sqoop(Hive与MySQL数据互通)
  • 调度系统‌:Azkaban
  • 可视化与协调‌:Hue、ZooKeeper
  • 元数据管理‌:MySQL

(一、环境规划与依赖准备‌中)提供全组件官方下载地址‌ 和 ‌配置模板‌,助您快速搭建企业级数据平台!

一、环境规划与依赖准备‌

1. 服务器规划(3节点集群)

节点角色 IP地址 部署服务
Master‌ 192.168.1.101 NameNode、ResourceManager、Hive、Hue、ZooKeeper、Azkaban Web Server、MySQL
Worker1‌ ‌192.168.1.102 DataNode、NodeManager、ZooKeeper、Azkaban Executor
Worker2‌ ‌192.168.1.103 DataNode、NodeManager、ZooKeeper

2. 系统与依赖‌

  • 操作系统‌:CentOS 7.9(所有节点)
  • JDK‌:JDK 8u381(下载地址
  • ‌MySQL‌:5.7.44(存储Hive元数据)
  • Python‌:3.6+(Hue依赖)

3. Hadoop生态组件版本与下载路径

组件 稳定版本 官方下载路径
HDFS 3.3.6 Apache Hadoop Releases
YARN 3.3.6 同上
Hive 3.1.3 Apache Hive Downloads
Hue 4.11.0 Gethue Releases
ZooKeeper 3.7.1 Apache ZooKeeper
MySQL 5.7.44 MySQL Community Server
Sqoop 1.4.7 Apache Sqoop
Azkaban 4.0.0 Azkaban GitHub Releases
Python 3.6+ EPEL 仓库安装 1. sudo yum install -y epel-release
2. sudo yum install -y python36 python36-devel

二、Hadoop(HDFS+YARN)安装与配置‌

1. 下载与解压(所有节点)

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz  
tar -zxvf hadoop-3.3.6.tar.gz -C /opt  
mv /opt/hadoop-3.3.6 /opt/hadoop  

2. HDFS高可用配置

1)core-site.xml‌

<configuration>  
    <property>  
        <name>fs.defaultFS</name>  
        <value>hdfs://mycluster</value>  
    </property>  
    <property>  
        <name>hadoop.tmp.dir</name

网站公告

今日签到

点亮在社区的每一天
去签到