B站学习打卡——大数据面试需要注意的问题

发布于:2022-12-27 ⋅ 阅读:(156) ⋅ 点赞:(0)

学习目标:

通过学习了解大数据面试中需要注意的点,以此来发现自己的学习漏洞。

  • 114节课程全部完成

学习内容:

  • Day1

        《小文件引发的血案》(HDFS)——小文件是什么?明显小于blocksize的文件

        HDFS架构 —> HDFS读写流程——>HDFS HA——> 小文件是什么——>小文件给hadoop集群带来了什么问题

hadoop flink spark storm

HDFS:Client、NN(因为只有一个所以涉及到单点问题)、DN(存数据,和NN之间存在心跳)、Block

基本是一个Namenode和多个Datanode SecondaryNameNode。文件存储到HDFS的原理:

File存入HDFS是按照block进行拆分。

此图为课程中截图

 所谓的副本,是为了提高容错率,避免单点的问题(Single Point of Failure),下图中,名为part0的文件,r:2有2个副本,块有{1,3}两个,那其实也就是文件中有两个东西:“1”和“3”,这两个东西你为了避免说如果一个不存在了,发生错误了,则整个系统崩坏了,所以要备份。

此图为同一节课程截图

--------------------------------------------------------------------------------------------------------------------------------        HDFS架构 —> HDFS读写流程——>HDFS HA——> 小文件是什么——>小文件给hadoop集群带来了什么问题 

课程中的截图
  • 写过程:配置HDFS基本信息——> HDFS分块分副本——>客户端发送请求——> NN将分配好的DN信息反馈给客户——>客户把数据存储到DN上

        读写一定要有客户端(信息的发起人),那么客户要做什么,最开始的hdfs就像一个新手机,而我们要做的就是把它玩成每个人的个性化的手机,那么个性化的设置就需要我们进行“设置”,“设置”的方法有两种,第一种是命令,第二种是更改配置文件。那需要设置什么呢:

首先需要块Block,每个多大:也就是Blocksize,然后就是副本r。

NN需要了解 每个块分配到哪些DN上。

  • 读流程:客户端和NN之间信息互传,告知客户数据存储到哪个DN上,客户直接去DN上取数据。
课程中截图

 --------------------------------------------------------------------------------------------------------------------------------

      HDFS架构 —> HDFS读写流程——>HDFS HA——> 小文件是什么——>小文件给hadoop集群带来了什么问题

HDFS HA解决NN单点问题。NN(Active)——NN(standby)共享

那么问题来了,又怎么能让这两个NN切换呢?需要Monitor完成监控。ZK实现调度。

---------------------------------------------------------------------------------------------------------------------------------小文件给hadoop集群里带来了哪些问题

进程的开启和销毁,耗费时间和资源。会给磁盘的IO带来很大的负担。

IO问题和性能问题|计算机比较重要的两大问题


学习时间:

P1-P11

例如:

周一 周二 周三 周四 周五 周六 周日
- 2h

学习产出:

  • 技术笔记 2 遍
  • CSDN 技术博客 3 篇
  • 习的 vlog 视频 1 个

网站公告

今日签到

点亮在社区的每一天
去签到