hadoop 集群的常用命令

发布于:2025-04-01 ⋅ 阅读:(17) ⋅ 点赞:(0)

Hadoop集群是一个分布式系统,常用于存储和处理大规模数据。以下是一些Hadoop集群的常用命令:

 HDFS(Hadoop分布式文件系统)命令

 1. 启动和停止HDFS

- 启动HDFS

start-dfs.sh

此命令会启动NameNode、SecondaryNameNode和DataNode等HDFS相关的守护进程。

- 停止HDFS

stop-dfs.sh

该命令用于停止正在运行的HDFS守护进程。

 2. 创建目录

hdfs dfs -mkdir /new_directory

在HDFS根目录下创建一个名为`new_directory`的新目录。若要在指定目录下创建子目录,可指定完整路径,如`hdfs dfs -mkdir /parent_dir/new_sub_dir`。

 3. 查看文件和目录

- 查看目录内容

hdfs dfs -ls /path

查看HDFS中指定路径`/path`下的文件和子目录信息。若要查看详细信息,可使用`hdfs dfs -ls -R /path`进行递归查看。

- 查看文件内容

hdfs dfs -cat /path/to/file

显示HDFS中指定文件的内容。

 4. 上传和下载文件

- 上传文件到HDFS

hdfs dfs -put local_file /hdfs_path

将本地文件`local_file`上传到HDFS的指定路径`/hdfs_path`。

- 从HDFS下载文件

hdfs dfs -get /hdfs_file local_path

把HDFS中的文件`/hdfs_file`下载到本地的`local_path`。

 5. 删除文件和目录

hdfs dfs -rm /path/to/file

hdfs dfs -rm -r /path/to/directory

第一条命令用于删除HDFS中的单个文件;第二条命令中的`-r`选项表示递归删除,用于删除整个目录及其子目录和文件。

 YARN(Yet Another Resource Negotiator)命令

 1. 启动和停止YARN

- 启动YARN

start-yarn.sh

启动ResourceManager和NodeManager等YARN相关的守护进程。

- 停止YARN

stop-yarn.sh

停止正在运行的YARN守护进程。

 2. 查看应用程序状态

yarn application -list

列出当前所有正在运行的YARN应用程序信息,包括应用程序ID、名称、状态等。

 3. 杀死应用程序

yarn application -kill <application_id>

终止指定`application_id`的YARN应用程序。

 MapReduce作业命令

 运行MapReduce作业

hadoop jar /path/to/your/jar/file.jar main_class input_path output_path

执行一个MapReduce作业,其中`/path/to/your/jar/file.jar`是包含MapReduce程序的JAR文件路径,`main_class`是主类名,`input_path`是输入数据在HDFS中的路径,`output_path`是输出结果在HDFS中的路径。