Hadoop集群是一个分布式系统,常用于存储和处理大规模数据。以下是一些Hadoop集群的常用命令:
HDFS(Hadoop分布式文件系统)命令
1. 启动和停止HDFS
- 启动HDFS
start-dfs.sh
此命令会启动NameNode、SecondaryNameNode和DataNode等HDFS相关的守护进程。
- 停止HDFS
stop-dfs.sh
该命令用于停止正在运行的HDFS守护进程。
2. 创建目录
hdfs dfs -mkdir /new_directory
在HDFS根目录下创建一个名为`new_directory`的新目录。若要在指定目录下创建子目录,可指定完整路径,如`hdfs dfs -mkdir /parent_dir/new_sub_dir`。
3. 查看文件和目录
- 查看目录内容
hdfs dfs -ls /path
查看HDFS中指定路径`/path`下的文件和子目录信息。若要查看详细信息,可使用`hdfs dfs -ls -R /path`进行递归查看。
- 查看文件内容
hdfs dfs -cat /path/to/file
显示HDFS中指定文件的内容。
4. 上传和下载文件
- 上传文件到HDFS
hdfs dfs -put local_file /hdfs_path
将本地文件`local_file`上传到HDFS的指定路径`/hdfs_path`。
- 从HDFS下载文件
hdfs dfs -get /hdfs_file local_path
把HDFS中的文件`/hdfs_file`下载到本地的`local_path`。
5. 删除文件和目录
hdfs dfs -rm /path/to/file
hdfs dfs -rm -r /path/to/directory
第一条命令用于删除HDFS中的单个文件;第二条命令中的`-r`选项表示递归删除,用于删除整个目录及其子目录和文件。
YARN(Yet Another Resource Negotiator)命令
1. 启动和停止YARN
- 启动YARN
start-yarn.sh
启动ResourceManager和NodeManager等YARN相关的守护进程。
- 停止YARN
stop-yarn.sh
停止正在运行的YARN守护进程。
2. 查看应用程序状态
yarn application -list
列出当前所有正在运行的YARN应用程序信息,包括应用程序ID、名称、状态等。
3. 杀死应用程序
yarn application -kill <application_id>
终止指定`application_id`的YARN应用程序。
MapReduce作业命令
运行MapReduce作业
hadoop jar /path/to/your/jar/file.jar main_class input_path output_path
执行一个MapReduce作业,其中`/path/to/your/jar/file.jar`是包含MapReduce程序的JAR文件路径,`main_class`是主类名,`input_path`是输入数据在HDFS中的路径,`output_path`是输出结果在HDFS中的路径。