嘉宾 | 魏博锴
出品 | CSDN云原生
2022年7月28日,中国信通院、腾讯云、FinOps产业标准工作组联合发起的《原动力x云原生正发声 降本增效大讲堂》系列直播活动第4讲如期举行,中国信通院云大所云计算部云原生研究员魏博锴解读了云原生混部标准。本文整理自魏博锴的分享。
标准编制背景
云资源利用率持续偏低,成本问题迫在眉睫
国内公有云服务商统计数据显示,公有云环境里虚拟机平均资源利用率仅为12%,部分私有云环境里这个数字甚至不足10%。Flexera《2021云状态报告》数据显示,企业上云后的平均资源浪费率在30%左右。
降本增效,在离线混部成为有效路径
传统的在线交易类任务与离线数据分析类任务,都部署在独立基础设施之上。如果资源利用率持续低迷,我们自然而然会尝试将资源共享。
将在线业务和离线任务混合部署到相同物理资源上,通过资源隔离、资源调度等方式 , 在充分使用资源的同时保证服务稳定运行,我们称这样的技术为“混部”。
在离线混部的目的在于降本增效,降本是指提升资源利用率,增效指的是保障服务运行质量。
从资源占用的角度,在离线混部可以有效提升资源利用率,实现降本增效。
在离线混部模型,理想很丰满,现实很骨感
混部的实现需要以底层基础设施与上层业务应用之间的打通为前提,这个过程会带来大量复杂的问题:
业务部门、技术部门差异化的需求和供给导致资源冗余;
各种不同类型、不同特点的系统差异化,导致系统复杂性;
行业监管要求高,在离线系统运行合规难;
配套制度不完善,团队协作和沟通难度大;
资源配置不精准、资源扩容滞后性、资源分配不合理;
业务应用与虚拟机、物理机的“强绑定”关系,导致资源利用率受到系统活跃度的影响大幅降低。
云原生混部方案
云原生技术逐步成熟,助力混部发展
面对在离线混部部署的“现实骨感”,我们尝试用云原生的方法来解决混部带来的问题。
CNCF云原生定义:有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用,代表技术包括容器、服务网格、微服务、不可变基础设施、声明式API等。
资源灵活配置助力混部发展
从架构角度看,基于虚拟机、物理机的传统技术架构下,业务应用与基础环境“强绑定”,资源借用只能通过腾挪机器的方式实现,很难做到混部场景下的资源弹性共享,同时IT成本并未显著降低。
随着云原生技术的实现,云原生混部可以帮助企业实现更加灵活的弹性资源供给、智能的自动化流量调控。企业可以针对具有业务优先级、资源优先级、明显峰谷特性的业务,进行混部。
混部能力要求
资源占用剖析和利用率提升
在对云原生混部标准的能力要求进行抽象之前,我们尝试对资源占用情况以及利用率提升的手段进行剖析。
业务——已申请但未使用的量。当业务部门作为需求部门时,为了保证应用能够正常稳定地运行,往往会在提需求阶段要求技术部门冗余一定的资源。在降本的过程中,可以对该部分的使用量进行缩减。在云原生领域,可以基于容器实现精细化资源管理。
系统——已分配但未使用的量。传统的基于虚拟机所分配的资源只能给系统使用,不够灵活的情况下,无法对该部分资源进行共享。而使用基于容器的Request和Limit可以对资源用量进行有效判断与管控。
应用——峰谷效应的空闲量。应用在资源使用的波谷阶段会产生大量资源空闲量,此时可以对该部分资源进行填充,通过横向、纵向扩缩容,实现资源弹性供给及服务编排调度。
混部关键技术
从三种资源占用的角度出发,我们对云原生混部在不同方面所需具备的相关技术方案进行了归纳总结:
基础设施:优先抢占、负载感知、干扰识别以及QoS保障等;
平台混部:精细化资源编排、智能化资源超卖、服务化任务感知以及定制化冲突处理等;
业务应用:Spark、Flink、Hadoop、AI Jobs等。
在对混部的整体架构以及开源、商业的不同解决方案进行研究和归纳后,《云原生混部技术能力要求》标准能力框架被梳理形成,如下图所示。
下一步工作计划
中国信通院自2016年开始云原生领域的技术研究工作,目前已形成覆盖容器、微服务、Serverless的完整云原生评估体系,完成20+行标的立项、编写工作。依托标准可为用户提供围绕云原生的预评估、能力建设规划、建设监理、价值挖掘和联合研究等全链条咨询服务。
接下来,我们会围绕产业侧的实践及行业侧的经验对云原生混部技术的标准进行更新迭代,计划于8月启动首批评测。在研究方面,我们会启动云原生混部技术行业应用实践,对云原生混部的已有成效进行指南编写。
【原动力×云原生正发声降本增效大讲堂】第一期聚焦在优秀实践方法论、资源与弹性、架构设计;第二期聚焦全场景在离线混部、K8s GPU资源效率提升、K8s资源拓扑感知调度主题,点击『此处』进入活动专题,带你体验云原生降本增效实践案例、了解如何解决企业用云痛点、掌握降本增效关键技能……