【scau大数据原理】期末复习——堂测题

发布于:2024-06-29 ⋅ 阅读:(19) ⋅ 点赞:(0)

一、集群安装知识

启动集群的命令start-all.sh位于    Hadoop安装目录的sbin文件夹    目录下。
    bin文件夹下包含常见的Hadoop,yarn命令;sbin命令下包含集群的启动、停止命令。

启动集群的命令start-all.sh包含    同时启动start-dfs.sh和start-yarn.sh 功能。
    先启动文件系统start-dfs.sh,然后启动计算相关start-yarn.sh。

集群完全启动(dfs和yarn)后,master端包括    NameNode、SecondaryNameNode、ResourceManager    进程
        文件系统相关:NameNode、SecondaryNameNode;

        计算相关的资源管理进程:ResourceManager
集群完全启动后,salve工作节点包含进程DataNode、NodeManager
        文件存储进程:DataNode;节点计算进程:NodeManager

集群启动dfs后,master端包含        NameNode、SecondaryNameNode        进程与dfs相关。

集群启动yarn后,工作节点包含        NodeManager        进程与yarn相关。

假设集群的安装目录是/home/zkpk/hadoop-3.1.3,则集群的配置文件子目录是     /home/zkpk/hadoop-3.1.3/etc/hadoop   

配置文件在HADOOP_HOME的etc/hadoop子目录下

linux的系统环境配置文件是        /etc/profile      

系统环境文件为/etc/profile,通常JAVA_HOME在此设置

Linux中记录主机Ip地址与主机名称的文件是        /etc/hosts        

文件名为/etc/hosts;文件内容:每一行包含IP地址 主机名

Linux中:~表示用户的HOME目录;修改/etc/profile需要root用户操作;

                语句cd和cd~相同,都是表示返回当前用户的HOME目录;cd..表示返回上一级目录。

二、HADOOP知识

大数据的4V理论:数据量大(Volume);数据类型繁多(Variety);

                                处理速度快(Velocity);价值密度低(Value)。

4V+特征
数据量大(Volume)
数据类型繁多(Variety)
数据价值密度低(Value)
数据速度快时效高(Velocity)
可变性(Variability)、真实性(Veracity)

大数据计量单位:GB-TB-PB-EB-ZB(其中ZB是容量最大的单位)

大数据的四种计算模式:批处理;流计算;图计算;查询分析计算。

关于Hadoop的说法:高可靠性;可容错性;高可扩展性;低成本

HADOOP生态系统组件:YARN、SPARK、MapReduce、Hive、Hbase......

安装HADOOP集训需要用到ssh面密码登录:

        需要配置master到所有slave主机,slave相互之间的免密登录。

Hadoop 3.X的WebUI浏览端口是9870

查看/打印集群上的根目录下abc文件夹的文件:hadoop fs -ls /abc;hadoop fs -cat /abc/*

上传一个Linux当前目录下的test.a文件到集群根目录下,应该使用命令:hadoop fs -put test.a /

关于MapReduce的说法:核心思想是“分而治之”;Map阶段的输出作为Reduce阶段的输入;

                                        Map任务全部完成后,才能进行Reduce任务;

                                        不同Map/Reduce任务之间不会进行通信。

关于MR的说法:Map端的结果要写入本次磁盘;

                                一个Reduce任务处理一个分区数据;

                                Shuffle-就是从map端输出到reduce端输入之间的过程;

                                Map端输出时,要进行分区、排序、合并、归并等操作

一个文件大小是800M,集群block大小为256,Split分片大小为150M,则启动Map任务的数量是6

在Hadoop中,Map任务的数量通常是由输入文件被切分成的Split数量决定的。每个Split会对应一个Map任务。文件大小/split分片大小=800/150=6个

HADOOP序列化类型中与JAVA数据类型的描述中,

                hadoop的Text类型与java的String对应;

                hadoop的IntWritable类型与java的int 对应;

                hadoop的LongWritable类型与java的long 对应;

                hadoop的NullWritable空类型与Java的null对应

Yarn的说法中:yarn是一个通用的资源管理调度框架;

                        yarn的目标是“一个集群多个框架”;

                        yarn支持strom计算框架;

                        yarn把集群中的资源以容器(Container)方式分配给提出申请的应用程序。