一、 前提
linux中配置有jdk1.8版本以上
1、 上传jdk相应版本
2、 通过tar -zxvf xxx -C xxxx 解压到相应目录下
3、 配置jdk环境变量
vim /etc/profile
export JAVA_HOME=JDK路径
export PATH=$PATH:$JAVA_HOME/bin
4、 通过source /etc/profile来让配置生效
5、 通过命令java -version 来查看是否配置成功
linux中配置ip和主机名
1、 vim /etc/hostname 配置自己的主机名(例如:node1)
2、 vim /etc/hosts 配置自己的ip以及主机名(例如:192.168.66.100 node1)
注意:如果是在云服务器中配置,需要将公网和私网的ip以及主机名都配置上去
3、通过source /etc/xxx 来让其生效即可
关闭防火墙
systemctl stop firewalld
systemctl disable firewalld
二、 安装Hadoop
1、 上传hadoop2.8.5版本tar包到linux系统中
2、 通过tar -zxvf hadooptar包 -C 安装路径 进行解压安装
3、 配置环境变量
vim /etc/profile
export HADOOP_HOME=hadoop解压后的路径
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
4、 通过 source /etc/profile 来让配置生效
5、 通过 hadoop version 来检查环境是否配置成功
三、 配置Hadoop2.8.5(伪分布式)
在hadoop安装目录下的/etc/hadoop下进行配置
1、 hadoop-env.sh
export JAVA_HOME=/opt/app/jdk1.8.0_321
export HADOOP_CONF_DIR=/opt/app/hadoop-2.8.5/etc/hadoop
2、 core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://node1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/app/hadoop-2.8.5/metaData</value>
</property>
3、 hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
4、 mapred-env.sh
export JAVA_HOME=/opt/app/jdk1.8.0_321
5、 mapred-site.xml
(对mapred-site.xml.template重新命名为) mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>node1:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>node1:19888</value>
</property>
<property>
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>/mr-history/inter</value>
</property>
<property>
<name>mapreduce.jobhistory.done-dir</name>
<value>/mr-history/done</value>
</property>
6、 yarn-env.sh
export JAVA_HOME=/opt/app/jdk1.8.0_321
7、 yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node1</value>
</property>
<property>
<name>yarn.application.classpath</name>
<value>
/opt/app/hadoop-2.8.5/etc/hadoop,
/opt/app/hadoop-2.8.5/share/hadoop/common/*,
/opt/app/hadoop-2.8.5/share/hadoop/common/lib/*,
/opt/app/hadoop-2.8.5/share/hadoop/hdfs/*,
/opt/app/hadoop-2.8.5/share/hadoop/hdfs/lib/*,
/opt/app/hadoop-2.8.5/share/hadoop/mapreduce/*,
/opt/app/hadoop-2.8.5/share/hadoop/mapreduce/lib/*,
/opt/app/hadoop-2.8.5/share/hadoop/yarn/*,
/opt/app/hadoop-2.8.5/share/hadoop/yarn/lib/*
</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>2592000</value>
</property>
配置完成后通过 hdfs namenode -format 来进行初始化
初始化后
通过命令 start-dfs.sh 来启动HDFS
通过命令 start-yarn.sh 来启动YARN
通过命令 mr-jobhistory-daemon.sh start historyserver 来启动历史日志服务器
注意:启动时需要输入密码,密码为自己设置的linux系统密码
访问
通过 ip:50070 来访问NameNode
通过 ip:50075 来访问DataNode
通过 ip:50090 来访问SecondaryNameNode
通过 ip:19888 来访问历史日志服务器
通过 ip:8088 来访问Yarn
配置免密登录
通过命令 cd ~/.ssh 到ssh文件夹下
输入命令 ssh-keygen -t rsa 敲三下回车
输入命令 ssh-copy-id ip或者主机名 来进行密钥分发
四、 Hadoop的一些端口号解释
HDFS的端口
NameNode
9000 API操作
50070 web访问端口
DataNode
50010 DataNode和NameNode的通信端口
50075 web访问端口
SecondaryNameNode
50090 web访问端口
YARN的端口
Yarn
8088 web访问端口
历史日志服务器的端口
historyserver
19888 web访问端口