深入解析YARN调度机制：原理、实践与性能优化指南-EW帮帮网

cover

深入解析YARN调度机制：原理、实践与性能优化指南

本文类型：性能优化实践指南
技术领域：大数据处理（Hadoop YARN）

一、技术背景与应用场景

在大数据生态中，YARN（Yet Another Resource Negotiator）是 Hadoop 2.x 引入的资源管理与调度组件，它将计算资源管理与作业执行分离，极大提升了集群资源利用率与作业并行度。常见场景包括：

离线批处理：Spark、MapReduce 作业需要动态分配计算容器；
实时流计算：Flink、Storm 等需要持续分配槽位；
混合负载环境：交互式查询（Hive LLAP、Presto）与批处理并存。

在生产环境，资源争抢、队列饱和、延迟调度等问题会直接影响作业吞吐与集群稳定性。因此，深入了解 YARN 调度机制并结合集群规模与业务场景，制定精准的优化策略，显得尤为关键。

二、核心原理深入分析

YARN 的调度组件位于 ResourceManager（RM）之下，主要负责资源分配；调度器（Scheduler）决定资源如何分配给不同的队列与应用。目前内置两种调度器：CapacityScheduler 与 FairScheduler。

1. 调度器概览

| 调度器 | 原理与特点 | 适用场景 | |--------------|-------------------------------------------------------------|----------------------------------| | CapacityScheduler | 基于队列容量与权重，保证各队列资源配额 → 队列隔离 | 大规模多租户场景 | | FairScheduler | 以最小化作业等待时间为目标，动态分配资源，保障公平性 | 资源请求突发、作业大小差异明显场景 |

2. 关键数据结构与流程

ApplicationMaster（AM）注册；
AM 发出资源请求（ResourceRequest），包含如 memory, vCores, priority；
Scheduler 收集请求，根据队列配额、优先级、已有分配、预留策略等执行调度；
Scheduler 分配容器（Container）返回给 NodeManager（NM）；
AM 接收容器并在 NM 上启动任务。

3. 调度策略细节

CapacityScheduler：使用叶子队列 QueueInfo 中的 capacity、maxCapacity、usedCapacity 进行决策。支持 FIFO、DRF（Dominant Resource Fairness） 等多种资源计算方式。
FairScheduler：使用 FifoQueue 与 Pool，按 minShare、fairShare 动态调整，可配置 preemption（抢占）以防饥饿。
延迟调度（Delay Scheduling）：为提高数据本地性，引入延迟等待本地节点，可通过 yarn.scheduler.fair.locality-delay-millis 配置调整。

三、关键源码解读

以下以 CapacityScheduler 为例，分析核心调度代码路径。

// CapacityScheduler.java 中的 allocate() 方法
public synchronized CSAllocation allocate(
    ApplicationAttemptId applicationAttemptId,
    List<ResourceRequest> ask,
    List<ContainerId> release,
    List<String> blacklistAdditions,
    List<String> blacklistRemovals) {

    // 1. 更新黑名单信息
    allocateBlacklist.addAll(blacklistAdditions);
    allocateBlacklist.removeAll(blacklistRemovals);

    // 2. 释放容器
    for (ContainerId id : release) {
        releaseContainer(id);
    }

    // 3. 提交新的资源请求
    for (ResourceRequest req : ask) {
        queueMetrics.incrPendingResources(req.getNumContainers());
        appSchedulable.submitResourceRequest(req);
    }

    // 4. 触发调度
    schedule();

    // 5. 返回分配结果
    return new CSAllocation(assignedContainers, allocatedResource);  
}

schedule() 方法内部会遍历所有队列与应用，调用 assignContainers() 进行真正的分配：

enum AssignResult { ASSIGNED, NONE, CONTINUE }

private AssignResult assignContainers(
    SchedulerRequestKey currentKey,
    ResourceLimits currentLimits) {

    while (true) {
        // 获取下一个待分配请求
        ResourceRequest req = pendingRequests.peek();
        if (req == null) return AssignResult.NONE;

        // 检查资源是否可分配
        if (!resourcesAvailable(req.getResource())) {
            return AssignResult.NONE;
        }

        // 分配容器
        Container container = scheduler.assignContainer(req);
        if (container != null) {
            // 记录分配
            assignedContainers.add(container);
            updateQueueMetrics(req);
            pendingRequests.remove(req);
            continue;
        }

        return AssignResult.NONE;
    }
}

从源码层面，可知容量、优先级、黑名单、数据本地性等策略如何在调度流程中协调决策。

四、实际应用示例

下面通过一个典型生产环境示例，展示如何为离线 Spark 作业与实时 Flink 作业配置 YARN 调度，以达到既保证实时业务 SLA，又合理利用离线批处理资源的目标。

1. 集群队列配置（CapacityScheduler）

在 capacity-scheduler.xml 中定义两个队列：

<configuration>
  <property>
    <name>yarn.scheduler.capacity.root.queues</name>
    <value>realtime,batch</value>
  </property>
  <!-- 实时队列，保留 30% 资源 -->
  <property>
    <name>yarn.scheduler.capacity.root.realtime.capacity</name>
    <value>30</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.realtime.maximum-capacity</name>
    <value>50</value>
  </property>

  <!-- 批处理队列，保留 70% 资源 -->
  <property>
    <name>yarn.scheduler.capacity.root.batch.capacity</name>
    <value>70</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.batch.maximum-capacity</name>
    <value>100</value>
  </property>

  <!-- 启用队列抢占 -->
  <property>
    <name>yarn.scheduler.capacity.node-locality-delay</name>
    <value>-1</value>
  </property>
</configuration>

2. 提交作业示例

# 提交实时 Flink 作业到 realtime 队列
flink run -m yarn-cluster \
  -ynm realtime-job \
  -yqu realtime \
  -yD jobmanager.memory.process.size=1024m \
  -yD taskmanager.memory.process.size=2048m \
  path/to/job.jar

# 提交 Spark 批处理作业到 batch 队列
spark-submit \
  --master yarn \
  --deploy-mode cluster \
  --name batch-job \
  --queue batch \
  --conf spark.executor.memory=4g \
  --conf spark.executor.cores=2 \
  path/to/spark-job.jar

3. 监控与告警

Ganglia/Prometheus：采集 yarn_scheduler_{capacity,used}_capacity 等指标；
Grafana：配置队列占用率、等待时长等仪表盘；
告警规则：当队列资源利用率 > 80% 且等待时长 > 2min，触发告警，辅助调整配额或上线临时资源。

五、性能特点与优化建议

在经过上述配置与实践后，我们可针对常见瓶颈提出优化建议：

数据本地性 vs 延迟：在 IO 密集型批作业场景，适当增大 node-locality-delay（如 3s）可提高数据本地性；
抢占与优先级：针对突发实时任务，开启 queue-acl 与 preemption，保证高优先级队列优先分配；
动态扩缩容：结合 Yarn 动态资源（YARN-2736）与 Kubernetes 调度，自动上下线 NodeManager；
资源碎片化：定期收紧容器规格（memory/vCores粒度），或者启用 ElasticContainers（Flex）减少碎片；
监控告警完善：引入 TaskMetrics、SchedulerMetrics，并结合日志分析工具（ELK），快速定位调度延迟、内存溢出等问题。

总结

本文从 YARN 调度器整体架构入手，以 CapacityScheduler 为例，深入剖析了调度流程与源码，结合生产环境示例与监控实践，给出了切实可行的性能优化建议。通过合理配置队列、抢占策略与数据本地性延迟，以及完善的监控告警体系，能够显著提升集群资源利用率与任务调度效率，满足大规模混合工作负载的需求。

希望本文对从事大数据平台运维与后端开发的技术人员有所帮助。

*文末，欢迎在评论区分享您的实践经验与进一步的优化思路。
*本文示例基于 Hadoop 3.x 与 Yarn 2.x 环境。

深入解析YARN调度机制：原理、实践与性能优化指南