之前我们已经搭建好了hadoop集群,并测试了它的文件管理和程序运行等相关命令。这些都是理论示范,在真实的开发中,我们是通过使用java程序来与集群进行交互的。
那接下来,我们就将使用java来写项目操作集群。
(一)hadoop客户端环境准备
hadoop集群我们配置好了,要与它进行交互,我们还需要准备hadoop的客户端。要分成两步:下载hadoop包、配置环境变量。
1. 找到资料包路径下的Windows依赖文件夹,拷贝hadoop-3.1.0到非中文路径(比如d:\hadoop-3.1.0)
2. 新建HADOOP_HOME环境变量,值就是保存hadoop的目录。
效果如下:
接着我们来配置path环境变量
新建一个
建完之后我们可以验证一下刚刚配置的是否正常
双击winutils.exe 如果报如下错误说明缺少微软运行库,这个问题可以通过在:资料包里面有对应的微软运行库安装包双击安装来解决。
请大家根据上面的步骤,自行配置,并验证
(二)Maven基本介绍
Maven 是一个功能强大的项目管理和构建自动化工具,在 Java 开发领域应用广泛,对于初学者来说是必须掌握的工具之一。我们介绍如下:
1.核心功能
有三个核心功能:项目构建、项目信息管理、依赖管理。下面分别介绍。
(1)项目构建:Maven 可以根据预定义的生命周期和插件,自动完成项目的编译、测试、打包、部署等一系列构建任务。比如,你只需在命令行输入 `mvn compile`,Maven 就会自动将 Java 源代码编译成字节码文件。
(2)依赖管理:在 Java 项目中,通常会使用到许多第三方库。Maven 可以帮助你管理这些依赖项,你只需在项目的 `pom.xml` 文件中声明所需的依赖,Maven 就会自动从远程仓库下载这些依赖项,并将其添加到项目的类路径中。例如,如果你需要使用 Apache Commons Lang 库,只需在 `pom.xml` 中添加声明
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-lang3</artifactId>
<version>3.12.0</version>
</dependency>
(3)项目信息管理:Maven 可以通过 pom.xml 文件管理项目的各种信息,如项目名称、版本号、开发者信息等。这些信息有助于项目的标准化和规范化管理。
2.项目对象模型(POM)
POM 是 Maven 的核心概念之一,它是一个 XML 文件(通常命名为 `pom.xml`),用于描述项目的配置信息和依赖关系。以下是一个简单的 `pom.xml` 文件示例:
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.example</groupId>
<artifactId>my-project</artifactId>
<version>1.0.0</version>
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.13.2</version>
<scope>test</scope>
</dependency>
</dependencies>
</project>
在这个示例中:
- `groupId`:表示项目或组织的唯一标识符,通常采用反向域名的形式。
- `artifactId`:表示项目的名称。
- `version`:表示项目的版本号。
- `dependencies`:包含了项目的所有依赖项。
3.生命周期和插件
生命周期:Maven 定义了一套标准的项目构建生命周期,主要包括 `clean`、`default` 和 `site` 三个生命周期。每个生命周期由多个阶段(phase)组成,例如 `default` 生命周期包含 `compile`、`test`、`package`、`install`、`deploy` 等阶段。当你执行某个阶段时,Maven 会自动执行该阶段之前的所有阶段。
4.仓库
Maven 使用仓库来存储项目的依赖项和构建输出。仓库分为本地仓库和远程仓库:
本地仓库:默认位于用户的 .m2/repository 目录下,用于存储从远程仓库下载的依赖项和本地项目构建生成的构件。也可以在maven包下的conf/settings.xml.中去修改localRepository字段值(约在55行)。
远程仓库:Maven 中央仓库是最常用的远程仓库,它包含了大量的开源库和插件。你也可以配置其他远程仓库,如公司内部的私有仓库。
(三)安装和使用Maven
在 Windows 系统中配置 Maven 环境变量是一个相对简单的过程。以下是详细的步骤介绍,请大家跟着一起来操作。
步骤 1:下载并安装
1. 下载 Maven
- 访问 [Apache Maven 官网](https://maven.apache.org/download.cgi)。
- 下载最新版本的 Maven 压缩包(`apache-maven-<version>-bin.zip`)。
2. 解压 Maven:将下载的压缩包解压到一个非中文目录下,例如 D:\Apache\maven
步骤 2:配置环境变量
1. 打开环境变量设置:
- 右键点击“此电脑”或“我的电脑”,选择“属性”。
- 在弹出的窗口中,点击“高级系统设置”。
- 在“系统属性”窗口中,点击“环境变量”按钮。
2. 设置 `MAVEN_HOME` 环境变量:
- 在“环境变量”窗口中,点击“新建”按钮。
- 在“变量名”中输入 `MAVEN_HOME`。
- 在“变量值”中输入 Maven 的安装路径,例如 `D:\Apache\maven`。
- 点击“确定”保存。
3. 更新 `PATH` 环境变量:
- 在“环境变量”窗口中,找到并选择 `Path` 环境变量,然后点击“编辑”按钮。
- 在“编辑环境变量”窗口中,点击“新建”按钮。
- 输入 `%MAVEN_HOME%\bin`。
- 点击“确定”保存。
4. 验证环境变量配置:
- 打开命令提示符(CMD)或 PowerShell。
- 输入以下命令并按回车:
mvn -v
如果配置成功,你将看到 Maven 的版本信息,例如:
Apache Maven 3.8.6 (882c7e72db217eacb00ef2f22545e435a2c09a1f)
步骤 3:配置 Maven 的 settings.xml 文件
Maven 的 settings.xml文件用于配置 Maven 的全局设置,例如镜像、仓库等。默认情况下,settings.xml文件位于 Maven 安装目录的 conf文件夹中(例如 D:\Apache\maven\conf\settings.xml)。
打开 settings.xml文件,使用文本编辑器去修改如下两个内容:
1. 配置本地仓库路径
更改 Maven 的本地仓库路径,可以在 settings.xml文件中添加以下配置:
<localRepository>d:\maven\repository</localRepository>
2. 配置镜像
配置阿里云 Maven 镜像以加快依赖下载速度:
<mirrors>
<mirror>
<id>aliyun-maven</id>
<name>阿里云 Maven 镜像</name>
<url>https://maven.aliyun.com/repository/public</url>
<mirrorOf>central</mirrorOf>
</mirror>
</mirrors>
到这里我们就配置结束了