[论文阅读] 人工智能 | EdgeFlow:盘活边缘空闲资源,提升深度学习调度效率的新方案

发布于:2025-08-19 ⋅ 阅读:(18) ⋅ 点赞:(0)

EdgeFlow:盘活边缘空闲资源,提升深度学习调度效率的新方案

论文信息

  • 论文原标题:云边协同的深度学习作业调度方法
  • 主要作者及研究机构:谷典典、金鑫、刘譞哲(北京大学 计算机学院)
  • APA引文格式:Gu, D., Jin, X., & Liu, X. (2025). Cloud-edge Coordinated Scheduling Method for Deep Learning Jobs. Journal of Software, [Online]. https://www.jos.org.cn/1000-9825/7432.htm

一段话总结

本文针对边缘服务器资源闲置与云计算集群深度学习训练资源紧张的矛盾,提出了一种云边协同的调度策略EdgeFlow,通过协同调度云端和空闲边缘资源,结合弹性训练动态调整资源分配,最终提升了截止期敏感的深度学习训练作业的截止期满足率,并提高了整体计算资源利用率。

思维导图

在这里插入图片描述

研究背景

想象这样两个场景:

  • 小区里的健身房(类比边缘服务器):早晚高峰人满为患,但凌晨到清晨几乎没人,器材大量闲置;
  • 市中心的大型健身中心(类比云计算集群):24小时人挤人,想预约热门器材(如GPU)要排很久的队,很多人因为等不及而错过健身计划(类比作业截止期)。

在计算领域,这样的矛盾同样存在:

  • 边缘服务器为移动应用提供低延迟服务,但用户需求的“潮汐现象”(如白天高负载、深夜低负载)导致其大部分时间资源闲置,算力浪费严重;
  • 与此同时,云计算集群中,深度学习训练作业对GPU等资源需求激增,资源长期紧张,大量截止期敏感的作业(如产品上线前必须完成的模型训练)因等待资源而错过截止期。

现有调度策略只盯着云计算集群内部的资源,没意识到边缘服务器的“闲置潜力”。这篇论文就瞄准了这个问题:如何让边缘的“空闲健身房”帮云端的“拥挤健身中心”分担压力?

创新点

  1. 云边协同的调度思路:首次将云计算集群与边缘服务器资源结合,让边缘空闲资源为深度学习训练“分忧”,突破了传统调度仅依赖云端资源的局限。
  2. 动态弹性训练:根据作业截止期和资源紧张程度,实时调整作业使用的GPU数量(云端)或资源类型(云端/边缘),像“弹性绷带”一样灵活适配资源需求。
  3. 智能分载算法:不是盲目把作业丢给边缘,而是通过3条规则筛选最合适的作业(如优先保留已在边缘的作业、确保迁移后仍能满足截止期等),避免资源浪费。

在这里插入图片描述

研究方法和思路

1. 核心策略:EdgeFlow调度系统
  • 作业分析器:预执行作业,测试不同资源配置下的吞吐率(单位时间处理的任务量),为调度提供数据基础。
  • 资源分配三步法
    1. 先给每个作业分配“最小满足份额”的云端资源,保证其刚好能在截止期前完成,节省资源给更多作业;
    2. 若有空闲边缘服务器,用分载算法挑选作业迁移过去,为云端“减负”;
    3. 最后将云端剩余资源分配给能最快提升效率的作业,加速执行。
2. 分载算法的3条关键规则
  1. 已在边缘的作业优先保留,避免反复迁移浪费时间;
  2. 挑选“在边缘跑也能按时完成”的作业迁移,既不耽误自身,又能给云端腾资源;
  3. 对“在云端也难满足截止期”的作业,计算“云资源使用优先级”,优先把优先级低的作业移到边缘,让云端资源给更有希望满足截止期的作业。
3. 实验验证
  • 数据来源:用阿里巴巴和微软Philly集群的真实作业历史作为测试数据;
  • 模拟器:模拟不同GPU(云端A100、边缘V100)的性能,计算作业在不同资源配置下的完成时间;
  • 对比方法:与Gandiva、Tiresias、EDF等5种主流调度方法对比,评估截止期满足率。

主要贡献

核心贡献 通俗解读
分析云边协同的优势 证明了“边缘帮云端”能显著提升截止期满足率(例如仅用1个边缘服务器,完成作业数从7个增至9个)
提出EdgeFlow调度策略 一套完整的“云边分工”方案,包括资源分配、作业分载等关键步骤,可直接指导实际系统设计
实验验证有效性 相比现有方法,EdgeFlow的截止期满足率提升1.1-7.3倍,且边缘资源利用率显著提高

(注:论文未提及开源代码或数据集)

关键问题

  1. 为什么边缘服务器的闲置资源能帮到云端?
    边缘服务器因负载潮汐现象经常空闲,而其算力虽不如云端GPU,但足以处理部分深度学习作业,能为云端分担压力,让云端资源集中给更紧急的任务。

  2. EdgeFlow如何保证作业在边缘也能按时完成?
    通过作业分析器提前测试吞吐率,分载算法只挑选“在边缘执行仍能满足截止期”的作业,且动态调整资源分配,避免“迁移后拖慢进度”。

  3. 实验中EdgeFlow为什么比其他方法好?
    其他方法要么不考虑截止期(如Gandiva),要么只依赖云端资源(如ElasticFlow),而EdgeFlow既关注截止期,又能盘活边缘资源,因此表现更优。

总结

本文聚焦边缘资源闲置与云端深度学习资源紧张的矛盾,提出了云边协同调度策略EdgeFlow。通过动态分配云端和边缘资源、智能筛选迁移作业、结合弹性训练,该策略有效提升了截止期敏感作业的完成率,同时提高了整体计算资源利用率。实验证明,相比现有方法,EdgeFlow在不同场景下均表现更优,为深度学习集群调度提供了新的思路。


网站公告

今日签到

点亮在社区的每一天
去签到