1. 引言
Hadoop是一个广泛使用的分布式计算框架,用于存储和处理大规模数据集。掌握Hadoop集群的基本命令对于管理员和开发人员至关重要。本文将介绍Hadoop集群中最常用的HDFS、YARN和集群管理命令,帮助您高效地操作Hadoop环境。
2. HDFS(分布式文件系统)命令
HDFS(Hadoop Distributed File System)是Hadoop的核心存储系统,以下是一些常用命令:
2.1 文件与目录操作
| 命令 | 说明 |
| `hadoop fs -ls <path>` | 列出HDFS目录内容 |
| `hadoop fs -mkdir <path>` | 创建目录 |
| `hadoop fs -put <local> <hdfs>` | 上传本地文件到HDFS |
| `hadoop fs -get <hdfs> <local>` | 下载HDFS文件到本地 |
| `hadoop fs -cat <path>` | 查看文件内容 |
| `hadoop fs -tail <path>` | 查看文件末尾内容 |
| `hadoop fs -rm <path>` | 删除文件 |
| `hadoop fs -rm -r <path>` | 递归删除目录 |
| `hadoop fs -mv <src> <dst>` | 移动/重命名文件 |
| `hadoop fs -cp <src> <dst>` | 复制文件 |
| `hadoop fs -du -h <path>` | 查看文件/目录大小 |
2.2 文件系统管理
| 命令 | 说明 |
| `hdfs dfsadmin -report` | 查看HDFS集群状态 |
| `hdfs dfsadmin -safemode get` | 检查安全模式状态 |
| `hdfs dfsadmin -safemode enter` | 进入安全模式 |
| `hdfs dfsadmin -safemode leave` | 退出安全模式 |
| `hadoop fsck <path>` | 检查HDFS文件系统健康状况 |
3. YARN(资源管理)命令
YARN(Yet Another Resource Negotiator)负责集群资源管理和作业调度。
3.1 应用管理
| 命令 | 说明 |
| `yarn application -list` | 列出所有运行中的应用 |
| `yarn application -status <appId>` | 查看应用状态 |
| `yarn application -kill <appId>` | 终止应用 |
| `yarn logs -applicationId <appId>` | 查看应用日志 |
3.2 节点与队列管理
| 命令 | 说明 |
| `yarn node -list` | 查看集群节点状态 |
| `yarn node -status <nodeId>` | 查看特定节点详情 |
| `yarn queue -status <queueName>` | 查看YARN队列状态 |
4. 集群管理命令
4.1 启动/停止集群
| 命令 | 说明 |
| `start-dfs.sh` | 启动HDFS服务 |
| `stop-dfs.sh` | 停止HDFS服务 |
| `start-yarn.sh` | 启动YARN服务 |
| `stop-yarn.sh` | 停止YARN服务 |
| `start-all.sh` | 启动所有Hadoop服务(旧版本) |
| `stop-all.sh` | 停止所有Hadoop服务(旧版本) |
4.2 集群维护
| 命令 | 说明 |
| `hadoop balancer` | 均衡HDFS数据分布 |
| `hadoop dfsadmin -refreshNodes` | 刷新节点列表 |
| `hdfs namenode -format` | 格式化NameNode(谨慎使用!) |
5. 总结
本文介绍了Hadoop集群中最常用的HDFS、YARN和集群管理命令,涵盖文件操作、资源调度和集群维护等方面。熟练掌握这些命令,可以更高效地管理和优化Hadoop集群。
希望这篇指南对您有所帮助!如果有任何问题或补充,欢迎在评论区留言讨论。