2022年4月,“京东云全平台破坏演练项目”成功入选由中国信通院混沌工程实验室评选的“2022年混沌工程先锋实践者优秀案例”。标志着京东云在混沌工程领域的实战能力和技术实力已经达到了业内领先的水平。
京东云获信通院混沌工程先锋实践者优秀案例
京东云相关负责人出席“稳保计划”首届云系统稳定性大会,介绍到,作为今年央视春晚的独家互动合作伙伴,京东云在服务器0增加的情况下,实现了红包累计互动量691亿次,全程体验平滑顺畅,超千万核算力资源秒级超弹性调度。是京东云为超复杂场景交付的一次稳定性主动管理的最佳实践。
随着云计算被各行业广泛应用并成为关键基础设施,云的稳定性越来越重要。政务、金融、互联网、制造、能源等各行业逐渐将核心业务和数据部署到云上,如何评估及保障云产品特别是云平台整体的稳定性是各家云厂商必须面临和解决的问题,也是已上云、有上云计划企业关注的核心问题。
混沌工程作为保障分布式系统稳定性的重要技术,成为推动企业IT系统韧性建设的强大助力。
中国信通院发起2022年混沌工程先锋实践者优秀案例评选,对国内成熟度高、具有示范标杆作用的优秀混沌工程实践案例进行了调研和评选。通过专家评审团的严格测试及层层把关,“京东云全平台破坏演练项目” 成功入选 “2022年混沌工程先锋实践者优秀案例”。
京东云全平台破坏演练关键创新点
为了评价和提升云平台面对失控情况下的抗脆弱能力、建立产品信心,京东云需要落地混沌工程中更为复杂的业务场景,即全平台阶段性验收大演练,涉及全平台、全系统、大规模下的复杂场景。一方面验证系统在各类真实故障场景下的表现,并对问题加以分析和优化,使得系统的“抗脆弱性”持续增强,同时提高云产品的稳定性,进而提高服务可用性SLA。
“京东云全平台破坏演练项目“,依托 ”京东云-云泰故障注入与演练平台“ 来实现,以下简称”云泰“。
该项目需要组织云底座+挑选出的包括IaaS、PaaS、SaaS在内的100多个云产品共同演练,为了保证在一天的时间内有序完成多个严重故障模拟和恢复、实时评价各产品业务稳态、定位和分析可能出现的问题,云泰打造了多个创新点。一方面,建设多角度稳态评估机制:业务稳态+资源SLI稳态+云产品功能稳态+性能稳态。云泰创新性的支持了控制面和数据面分别配置和调试、多角度稳态叠加观测、关联故障事件。能直观、精确的观测故障发生及恢复时,各视角的变化情况,满足一站式演练、实时的监控和快速的问题定位的需求。第二,自定义故障注入的方案,可自动化模拟:主机宕机、开机、自定义命令、交换机等故障,使深层次、大面积故障自动模拟和恢复得以低门槛实施。第三,演练实施中,创新性的组织保障机制:筹建演练小组(总指挥、导演组、剧本组、接口人),制定角色协同时序图、确保演练宣贯启动、前期准备治理、演练中决策等环节有序进行。
“京东云全平台破坏演练项目“ 积累了混沌工程在大规模、复杂场景落地实践的经验,提前发现了近40个风险和问题,验证了机房、专线、机架、物理机、虚拟机、进程、依赖等故障下,预案有效性、监控及时性、流程适配性、人员熟练度,并获取了第一手MTTR数据,进一步理清服务依赖,潜在风险挖掘,和风险影响范围,有助于制定下一步全平台稳定性改进方向和方案。
得益于“京东云全平台破坏演练“的阶段性、持续性实施和迭代,京东云可用性大幅提升,其中云计算可用性提升至99.995%,跻身世界一流云计算厂商行列。在细化指标上,京东云的故障数、MTTR大幅降低,故障提前发现率大幅提升。
云泰技术架构
在京东云打磨多年的云原生架构支持下,基于京东业务体系积累的混沌工程能力,京东云沉淀出“云泰故障注入与演练平台“。云泰通过故障的仿真和注入、结合资源、业务的“稳定状态”监控,来检验系统的健壮性和可用性。
通过稳态监控功能,云泰可实现系统稳定性的主动测算和管理,包括:实时健康度、SLI实时数据及异常趋势、感知突发事件、异常定位及影响范围、MTTR测算、事件闭环管理等。云泰已可管理稳定性所有要素。
云泰灵活的场景编排机制:支持对演练对象进行场景编排、定时执行、稳态与故障时序同轴叠加,快速完成故障定位和影响范围评价。
云泰-全链路压测系统:支持数百万级并发测试,可精确分析每一次系统调用的消耗情况,帮助极致优化、节省计算资源。高并发大流量背景下的混沌工程演练,更能验证和体现系统的极致稳定性。
“云泰故障注入与演练平台“ 在京东的实践
2022年,京东担任央视春晚独家互动合作伙伴,京东云作为本次春晚红包互动的技术保障底座,成功挑战世界上规模最大的网络互动活动以及全球最复杂场景,红包互动与“年货春运”双场景叠加,在不增加计算资源的情况下实现秒级超大规模的计算资源变阵。在这个世界级的项目中,“云泰“在其中担任了重要角色。
机房断电宕机、硬盘故障、网络连接断开……这些故障对于春晚红包互动这个国民级活动来说都可以称之为灾难。为了确保高稳定性,京东云在项目筹备期进行了充分的演练。
一方面梳理了涉及基础设施、登录、支付、安全等多业务板块应急剧本,枚举了可能出现的故障、解决方案、负责人。
另一方面,充分利用“云泰故障注入与演练平台“的能力,采用单故障、混合故障、Fuzz并叠加全链路压测等模式,主动发起对抗演练,并基于”云泰稳态监控“功能,给出稳定性基线检查和评分,在此评分基础上不断迭代,最终实现从容平稳应对大规模复杂流量场景的挑战。
京东云通过2022央视春晚以及多年的京东618、11.11磨练,成为混沌工程的领先实践者和受益者,从单业务场景故障到整机房故障宕机,京东云完美通过各类复杂场景考验。作为最懂产业的云,京东云将积极在混沌工程领域的探索,并持续输出京东云的成功经验,助力产业数字化过程中IT系统稳定性的持续提升。