解决Spark4.0.0依赖问题

发布于:2025-06-15 ⋅ 阅读:(21) ⋅ 点赞:(0)

Apache Spark 4.0.0 冲突解决指南

1. 问题背景

在尝试运行一个基于 Apache Spark 4.0.0 的 Java 应用程序。根据 Spark 4.0.0 的发布说明,该版本默认支持 Scala 2.13 和 JDK 17。在初始设置和运行过程中,遇到了以下主要问题:

  • 依赖冲突 (POM 问题):Maven 项目的 pom.xml 配置不当,导致依赖解析失败。
  • Java 版本不兼容:尽管 pom.xml 中指定了 JDK 17,但系统默认的 Java 版本 (JDK 21/23) 导致运行时错误,包括 java.lang.UnsupportedOperationException: getSubject is supported only if a security manager is allowed
  • Servlet API 兼容性问题:运行应用程序时出现 java.lang.NoClassDefFoundError: jakarta/servlet/SingleThreadModel 错误。这是由于 Spark 4.0.0 内部使用了在较新 Servlet API 版本中已弃用或移除的类。

2. 解决方案

为解决上述问题,我们采取了一系列配置和调整措施。

2.1 pom.xml 配置调整

针对依赖和 Java 版本兼容性问题,对 pom.xml 进行了以下关键修改:

  • 指定 Java 版本: 确保 Maven 项目使用 JDK 17 进行编译和运行。

    <!-- ... existing code ... -->
    <properties>
        <java.version>17</java.version>
        <maven.compiler.source>${java.version}</maven.compiler.source>
        <maven.compiler.target>${java.version}</maven.compiler.target>
        <spark.version>4.0.0</spark.version>
        <scala.compat.version>2.13</scala.compat.version>
    </properties>
    <!-- ... existing code ... -->
    
  • 添加 Spark Core 和 Spark SQL 依赖: 确保 Spark 核心库和 SQL 模块正确引入,并设置为 provided 范围,避免与应用程序的其他依赖冲突。

    <!-- ... existing code ... -->
    <dependencies>
        <!-- ... existing dependencies ... -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_${scala.compat.version}</artifactId>
            <version>${spark.version}</version>
            <scope>provided</scope>
            <exclusions>
                <exclusion>
                    <groupId>jakarta.servlet</groupId>
                    <artifactId>jakarta.servlet-api</artifactId>
                </exclusion>
                <exclusion>
                    <groupId>org.eclipse.jetty</groupId>
                    <artifactId>*</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_${scala.compat.version}</artifactId>
            <version>${spark.version}</version>
            <scope>provided</scope>
        </dependency>
        <!-- ... existing dependencies ... -->
    </dependencies>
    <!-- ... existing code ... -->
    
  • 解决 Servlet API 兼容性问题: 为了解决 jakarta.servlet.SingleThreadModel 错误(Spark 4.0.0 内部仍在使用),我们显式排除了 spark-core 中的 jakarta.servlet-apiorg.eclipse.jetty 依赖,并手动引入了包含该类的较旧版本的 Servlet API (5.0.0)。

    <!-- ... existing code ... -->
    <dependency>
        <groupId>jakarta.servlet</groupId>
        <artifactId>jakarta.servlet-api</artifactId>
        <version>5.0.0</version>
        <scope>compile</scope> <!-- Or runtime, depending on specific need -->
    </dependency>
    <!-- ... existing code ... -->
    

    注意: 这个问题在 Apache Spark Jira (SPARK-51434) 中有记录,并计划在 Spark 4.1.0 中修复。手动引入旧版本 Servlet API 是一个临时性的解决方案。

  • 添加测试依赖: 解决 SparkDemoApplicationTests.java 中的编译错误,引入 Spring Boot 测试依赖。

    <!-- ... existing code ... -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-test</artifactId>
        <version>3.5.0</version> <!-- Use an appropriate version -->
        <scope>test</scope>
    </dependency>
    <!-- ... existing code ... -->
    
  • Maven Compiler Plugin 配置: 显式配置 Maven 编译器插件使用 JDK 17。

    <!-- ... existing code ... -->
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.11.0</version> <!-- Use an appropriate version -->
                <configuration>
                    <source>${java.version}</source>
                    <target>${java.version}</target>
                </configuration>
            </plugin>
            <!-- ... existing plugins ... -->
        </plugins>
    </build>
    <!-- ... existing code ... -->
    
  • Maven Exec Plugin 配置: 配置 exec-maven-plugin 以便直接运行主类,并添加 --add-opens 参数以解决 Java 模块化系统相关的运行时访问限制。

    <!-- ... existing code ... -->
    <plugin>
        <groupId>org.codehaus.mojo</groupId>
        <artifactId>exec-maven-plugin</artifactId>
        <version>3.1.0</version> <!-- Use an appropriate version -->
        <configuration>
            <mainClass>Spark_RDD.RDDCreateExample</mainClass>
            <executable>java</executable>
            <arguments>
                <argument>--add-opens</argument>
                <argument>java.base/java.nio=ALL-UNNAMED</argument>
                <argument>--add-opens</argument>
                <argument>java.base/java.nio.channels=ALL-UNNAMED</argument>
                <argument>--add-opens</argument>
                <argument>java.base/java.lang=ALL-UNNAMED</argument>
                <argument>--add-opens</argument>
                <argument>java.base/java.util=ALL-UNNAMED</argument>
                <argument>--add-opens</argument>
                <argument>java.base/java.util.concurrent=ALL-UNNAMED</argument>
                <argument>--add-opens</argument>
                <argument>java.base/java.util.concurrent.atomic=ALL-UNNAMED</argument>
                <argument>--add-opens</argument>
                <argument>java.base/jdk.internal.misc=ALL-UNNAMED</argument>
                <argument>--add-opens</argument>
                <argument>java.base/sun.nio.ch=ALL-UNNAMED</argument>
                <!-- Optional: For security manager if needed -->
                <!-- <argument>-Djava.security.manager=allow</argument> -->
            </arguments>
        </configuration>
    </plugin>
    <!-- ... existing code ... -->
    
2.2 Java 环境配置

确保系统环境中的 Java 版本与项目要求一致是至关重要的。

  • 设置 JAVA_HOME 环境变量:
    通过在 shell 配置文件(如 ~/.zshrc~/.bashrc)中设置 JAVA_HOME 变量,并将其指向 JDK 17 的安装路径,可以确保 Maven 和其他工具使用正确的 Java 版本。

    export JAVA_HOME="/Library/Java/JavaVirtualMachines/openjdk-17.jdk/Contents/Home"
    export PATH="$JAVA_HOME/bin:$PATH"
    

    修改后,请务必执行 source ~/.zshrc (或 ~/.bashrc) 使更改生效。

  • 验证 Java 和 Maven 版本:
    在终端中运行以下命令,验证 Java 版本和 Maven 使用的 Java 版本是否正确:

    java -version
    mvn --version
    

    确保 java -version 显示的是 17.x.x,并且 mvn --version 输出中 “Java version” 字段也指向 JDK 17。

2.3 Spark UI 禁用 (可选但推荐)

为了规避潜在的 Jetty 或 Servlet API 相关的运行时问题,可以通过 Spark 配置禁用 Spark UI,尤其是在只需要执行批处理任务时。在 RDDCreateExample.java 中添加以下配置:

// ... existing code ...
SparkConf conf = new SparkConf().setAppName("RDD Create")
                                .setMaster("local[*]")
                                .set("spark.ui.enabled", "false"); // Disable Spark UI
JavaSparkContext sc = new JavaSparkContext(conf);
// ... existing code ...
2.4 Maven Toolchains 尝试与经验

在解决 Java 版本问题时,我们曾尝试使用 Maven Toolchains 来管理不同 JDK 版本。尽管配置了 ~/.m2/toolchains.xml,但遇到了 Cannot find matching toolchain definitionsToolchain JDK[...] is missing required property: vendor 等错误。

经验总结:虽然 Maven Toolchains 是一个强大的工具,但在某些复杂的 Java 环境(特别是 macOS 上 OpenJDK 的安装路径和供应商识别)中,配置可能会比较棘手。在这种情况下,直接通过设置 JAVA_HOME 环境变量来管理 Java 版本,通常是更直接和有效的解决方案,特别是对于单一项目或开发环境。清理 Maven 本地仓库 (rm -rf ~/.m2/repository/*) 有助于清除旧的或损坏的依赖,但在 Toolchains 配置问题中,它并未直接解决根本问题。

3. 最终结果

经过上述一系列的配置和调整,应用程序最终成功运行。日志中显示 Spark 应用程序使用了 Java version 17.0.15,并且应用程序逻辑正确执行,输出了预期的结果。

成功运行的关键点:

  • pom.xml 中严格指定了 JDK 17。
  • 解决了 Spark 4.0.0 与 jakarta.servlet.SingleThreadModel 之间的兼容性问题,通过手动排除和引入特定版本的 Servlet API。
  • 通过设置 JAVA_HOME 确保了整个构建和运行环境都使用了正确的 Java 版本。