目录
HBase 和 Hive 的不同之处及 HBase 的底层实现原理
Python 和 Java 的选择及对 lambda 函数的理解
HashMap 的工作机制、线程安全性及 put 方法插入方式
Statement 和 PreparedStatement 的区别及使用 PreparedStatement 的原因
Hadoop 及其组成部分
Hadoop 是一个开源的分布式计算平台,主要用于存储和处理大规模数据集。它具有高可靠性、高扩展性和高容错性等特点,被广泛应用于大数据处理领域。
Hadoop 的主要组成部分包括:
- HDFS(Hadoop Distributed File System):是一个分布式文件系统,用于存储大规模数据集。它将数据分成多个块,并将这些块存储在不同的节点上,以实现高可靠性和高可用性。HDFS 采用主从架构,由一个 NameNode 和多个 DataNode 组成。NameNode 负责管理文件系统的元数据,如文件目录结构、文件块的位置等。DataNode 负责存储实际的数据块,并响应客户端的读写请求。
- MapReduce:是一种分布式计算模型,用于处理大规模数据集。它将计算任务分成两个阶段:Map 阶段和 Reduce 阶段。在 Map 阶段,将输入数据分成多个小块,并对每个小块进行处理ÿ