潘锦的空间 » 稳定性建设

关于前端稳定性建设的系统性思考

admin — Sun, 28 Jul 2024 07:36:08 +0000

【说明】全文约 15000 字，阅读需要约 30 分钟。是关于前端稳定性建设的系统性思考，从可观测体系、全链路监控、高可用架构、性能管理、风险治理、流程机制、工程建设等 7 个方面做了详细的表述。

随着前端技术的不断发展和前端应用工程的日益复杂化，前端系统的稳定性已经成为一个不容忽视的话题。

从技术站位来看，前端是连接用户与后端的重要桥梁。前端的稳定性直接关系到用户体验和产品形象。

如此，我们可以定义前端稳定性是指从用户的角度出发，检测到的整个系统的稳定性，系统任何一个环节的缺失都会对体验造成影响。

在实际业务中，我们经常看到有内部或外部的用户反馈，图片没有显示、页面点不了，卡住了，白屏了等等。这都是从用户的角度出发，发现的问题，但是常常我们没有一个体系来观测这些问题以及去跟踪解决这些问题。

这些问题直接关系到用户的使用体验和企业的业务发展。如果前端应用经常出现崩溃、卡顿、响应慢等问题，不仅会降低用户的满意度和忠诚度，还可能导致用户流失和业务损失。因此，前端稳定性建设是保障用户体验和业务发展的基础性工作。

前端稳定性建设面临的挑战主要来自于以下几个方面：

浏览器兼容性问题：和后端不同，后端的运行环境是在后端开发同学可控范围内的，而前端应用需要在各种不同的浏览器上运行，而不同浏览器厂商对前端技术的支持程度和实现方式存在差异。这就要求前端工程师在开发时要考虑各种兼容性问题，并进行大量的跨浏览器测试和调试工作。否则，可能导致某些浏览器上出现页面显示异常、功能不可用等稳定性问题。
网络环境复杂多变：前端应用的运行依赖于网络环境，除了自身资源的加载，还有后端请求等。然而，用户的网络条件千差万别，如弱网、断网、高延迟等问题时有发生。这些网络问题如果处理不当，会严重影响页面的加载速度和交互体验。同时，前端还需要考虑不同网络环境下的离线化方案，确保核心功能的可用性。
第三方服务不可用：CDN、云存储、广告等第三方服务故障或变更也会影响前端的稳定性。
代码质量参差不齐：前端代码通常由多人协作完成，开发人员的技术水平和编码习惯差异较大。这导致项目中经常存在大量的遗留代码和技术债，代码质量难以保证。低质量的代码不仅难以维护，还可能引入各种 bug 和性能问题，成为影响稳定性的重要因素。
业务需求快速变化：在快速的业务发展中，前端需求也在不断变化。频繁的需求更新和版本迭代，给前端开发和测试带来了很大压力。一方面，需要在有限的时间内快速响应需求;另一方面，又要尽可能保证每个版本的质量和稳定性。两者之间如何平衡，是一个不小的挑战。
缺乏完善的监控和报警：相对于后端，前端在监控和告警方面相对薄弱一些，并且前端错误和异常的表现形式多种多样，如白屏、卡顿、闪退等，而且难以通过后端日志发现和定位。如果没有完善的前端监控和报警机制，这些问题很可能被延迟发现甚至遗漏，从而酿成严重的线上事故。因此，构建全面的前端监控体系，是稳定性建设的重要一环。
缺少专门的稳定性团队和机制：很多团队缺少专门的稳定性工程师来推动前端稳定性建设，也没有将稳定性纳入考核机制。这导致稳定性工作容易陷入「重功能，轻质量」的误区。没有专人推动和持续投入，前端稳定性很难真正做起来、做下去、做出效果。
技术更新迭代加快：前端领域的新技术和新框架层出不穷，更新迭代速度非常快。但新技术在给开发带来便利的同时，也可能引入新的稳定性风险。团队需要在引入新技术时，充分评估其稳定性，并制定风险应对预案。同时，对遗留项目的老旧技术栈，也需要有计划地进行升级和重构，化解潜在的不稳定因素。

以上这些都会导致前端稳定性建设的风险发生，基于过往实践的一些经验，尝试系统性思考和梳理前端稳定性建设，总共有 7 点：可观测体系、全链路监控、高可用架构、性能管理、风险治理、流程机制和工程建设。

1 可观测体系：稳定性的前提

可观测性指一个系统在其外部输出的辅助下，推断其内部运行状态的能力。

可观测体系是前端稳定性建设的前提。它通过对前端应用的各个环节进行全方位的数据采集和分析，让系统的运行状态变得「可见」、「可度量」、「可诊断」。

只有建立完善的监控、日志、告警等可观测手段，才能及时发现和定位问题，为稳定性保驾护航。

主要包括四大支柱：

监控：全方位采集前端业务和系统的关键指标，实时呈现系统的运行状态。
告警：基于预设阈值规则，对异常指标进行告警，通知相关责任方及时处理。
日志：记录各种事件的详细上下文信息，用于问题的事后复盘和审计。
追踪：通过分布式链路追踪，梳理请求的完整调用链路，快速定位性能瓶颈。

其中监控作为可观测体系的核心，又可细分为 4 个层次：

基础监控：核心指标监控，如 JS 错误、接口请求等。
业务监控：结合业务语义，定制化采集业务指标，如登录成功率、XXX 转化率、访问量等。
行为监控：面向用户行为和业务流程，采集用户的行为轨迹和业务漏斗等数据。
体验监控：关注用户的主观感受，采集性能指标、页面稳定性等，评估用户体验。

监控的实施落地在下个小节详细聊，这里主要聊一下指标体系。

监控的核心是建立一套全面、有效的指标体系。指标体系要有清晰的分层架构，我们从「用户体验、页面健康、业务转化」三个维度，设计了以下关键指标：

用户体验相关

重点关注性能指标，度量页面在用户设备上的真实体验。

首屏时间: 以用户为中心的性能指标，可以测试用户感知到的页面加载速度。反映页面的可见速度。常见的细化指标包括 LCP、FCP、TTFB 等
白屏时间：从页面请求开始，到页面开始有东西呈现为止。反映页面的响应速度。
可交互时间：从页面请求开始，到页面可以响应用户交互。反映页面的可用速度。常见的细化指标包括 TBT 等
加载时间：从页面请求开始，到页面全部资源加载完成。反映页面的完整速度。常见的细化指标包括
体积大小：页面加载的资源文件大小。影响页面加载速度和首屏时间等。常见的细化指标包括页面 CSS 总文件大小、页面 JS 总文件大小、页面 HTML 体积（主要是 SSR 模式下），
卡顿率：页面交互过程中出现卡顿的概率。反映页面交互中的用户的使用流畅度。

页面健康相关

重点关注异常指标，度量页面的异常情况及其影响面。

白屏率：单位时间内，页面白屏不可用的 UV 与总 UV 的比值。反映页面的整体可用性。
JS 错误率：单位时间内，JS 错误的发生次数与 PV 的比值。反映页面的整体稳定性。
JS 错误影响率：单位时间内，发生 JS 错误的 UV 与总 UV 的比值。反映 JS 错误对用户的影响面。
接口错误率：单位时间内，接口报错的次数与总请求次数的比值。反映接口的整体健康度。
资源错误率：单位时间内，资源加载错误的次数与总资源请求次数的比值。反映资源的可用性。
CDN 请求成功率：CDN资源请求的成功率。反映第三方 CDN 等的资源加载的可用性。

业务转化相关

重点关注业务指标，度量页面的核心业务表现。

跳出率：只浏览一个页面就离开的 Session 占比。反映页面的受欢迎程度。
退出率：某个页面作为 Session 最后一个访问页面的占比。反映页面的挽留能力。
转化率：完成预期动作(如注册、下单)的用户数与总用户数的比值。反映页面的转化效率。

指标体系制定过程中，指标需要符合「SMART」原则。

指标体系只是起点，要让它真正发挥作用，还需要监控平台、告警机制、故障诊断等配套能力，形成一套闭环的稳定性保障机制。

2 全链路监控：稳定性的守护者

前端是直接面向用户的端，除了自身的工程部分，其还依赖于后端、第三方、以及整个业务链路中所有通路。

一个前端请求的处理流程，从浏览器发起请求，到服务端接收请求并返回响应，再到浏览器接收响应并渲染页面，贯穿多个不同的技术栈和系统。任何一个环节出现异常，都可能导致请求失败或响应缓慢，影响到最终的用户体验。

因此，光有前端侧的监控数据是不够的，还需要建立端到端的全链路监控体系。全链路监控是端到端追踪请求流程、发现性能瓶颈、定位异常根源的利器，是确保整个前端服务稳定运行的守护者。

请求追踪：在请求从前端发起时，植入唯一的 TraceID。该 ID 贯穿整个请求的处理过程，前后端服务通过传递该 ID，将一次完整的请求串联起来。利用 OpenTelemetry 等开放标准，统一不同服务的追踪数据格式，实现全链路可观测。
接口监控：在前后端的接口调用处，监控请求量、成功率、错误码、响应时间等指标。当某个接口的关键指标出现异常时，及时报警通知相关责任人。对高频调用、高敏感度的核心接口，设置更加严格的监控规则。
网络监控:前端请求的响应时间，很大一部分消耗在网络传输上。通过 Navigation Timing、Resource Timing 等 API，采集请求各个阶段的耗时，如 DNS 解析、TCP 连接、SSL 握手、响应等待等。当某个阶段耗时异常时，说明网络环节可能存在问题。
服务监控：除了前端自身，还需要监控前端所依赖的后端服务的运行状态，包括接口的可用性、负载情况等。当某个服务出现不可用、响应变慢等情况时，前端要能快速感知，并触发相应的告警和降级策略，避免影响到用户。服务的监控更多的依赖于后端或者 SRE 同学的构建，只是从前端的角度，其作为我们监控的一个关联方或者说链路中的一环。
业务监控:从业务的视角设置监控，如用户的登录成功率、订单的支付转化率等。一旦这些关键业务指标出现异常波动，就有可能说明某个环节出了问题，需要及时介入分析和处置。
智能关联：海量的监控指标，很容易产生”告警风暴”，淹没真正的问题。利用机器学习算法，智能关联不同来源的监控数据。比如，当某个接口响应缓慢，再结合网络监控数据，发现同一时间网络延迟升高，响应时间和延迟的波动趋势一致，那问题的根源可能在于网络，而非程序代码。

全链路监控从整体上提升了前端异常的可发现性，能够以更全局、更系统的视角审视请求的健康状况。它让监控不再局限于单一的技术范畴，而是拓展到了端到端的业务链路，从而更加贴近用户的真实体验。

以上是我们需要监控的部分，但是如何从头开始构建整个全链路监控系统，大概需要有如下的步骤：

2.1 需求调研与方案设计

每一家公司对于监控的诉求都不一样，特别是全链路这种大而全的监控系统，往往是一个牵连甚广的事项，最好从上到下来实施落地。

而且，需要结合当前业务所处的阶段，当前业务形态来明确需要做什么，以及能做什么。

这个过程主要是以下两个部分：

梳理监控需求：深入调研业务和技术团队，了解他们对监控的需求和期望。识别关键的业务流程和核心技术指标，明确监控的目标和范围。这一点特别重要，明确目标，考虑整体的 ROI，以及结合公司战略。
设计监控方案：基于调研结果，设计全链路监控的整体方案。方案要覆盖前端、网络、后端、基础设施等各个环节，涵盖性能监控、错误监控、业务监控等各个维度。要明确数据采集、数据处理、数据存储、可视化展示、告警通知等各个流程的技术选型和实现方案。这些内容是要考虑，但是并不是要一次性做完，全链路监控和稳定性建设一样都是一个长期的事情，需要不停的打磨和持续的投入。

2.2 监控 SDK 开发

要想做监控系统，其作为一个通用的能力，需要有特定的 SDK，以及系统支撑，从规范和模型开始保持统一，这样后续的的报表、监控等才能统一处理和跟进。

定义数据模型：基于监控需求，设计监控数据的结构化模型。数据模型要能覆盖各类监控场景，如性能指标、错误日志、请求追踪等，同时要易于扩展和维护。
开发采集 SDK：针对不同的监控对象和环境，如 JS 端、Node 端、iOS 端、Android 端等，开发对应的数据采集 SDK。SDK 负责以最小侵入的方式，采集各种监控指标。要保证 SDK 的稳定性和性能，不影响业务功能。
设计数据上报：采集到的监控数据，要高效、可靠地上报到服务端。设计合理的数据上报策略，如本地缓存、定时上报、断点续传等，提升数据的完整性。数据格式要轻量化，减少网络传输的开销。

2.3 搭建日志和监控服务

和 SDK 以及数据模型相关的是日志以及整个监控系统，大概包括如下的部分：

数据接收服务：搭建数据接收服务，如 Nginx、Kafka 等，负责接收 SDK 上报的监控数据。服务要能承载大量并发的数据写入，保证数据不丢失。
数据处理服务：搭建数据处理服务，如 Flink、Spark 等，对接收到的原始监控数据进行清洗、转换、聚合，生成各类统计指标。处理过程要尽可能实时，减少数据处理的延迟。
数据存储服务：根据数据的特性和查询需求，选择合适的存储服务。如对实时性要求高的核心指标，存入时序数据库如 InfluxDB；对聚合统计数据，存入 ElasticSearch；对明细数据，存入 Hive、Druid等。
配置告警规则：基于业务的 SLA 要求，配置各类监控指标的告警规则。如设置核心性能指标的阈值、错误率的上限等。告警规则要定期回顾，持续优化。

2.4 可视化展示搭建

数据存储及分析后，需要展示出来，通用我们会使用监控大盘、报表以及告警的形式。

监控大盘开发：使用 Grafana 等可视化工具，开发监控指标的展示大盘。大盘布局要清晰，核心指标放在显著位置。图表类型要直观，如用仪表盘展示实时数据，用折线图展示趋势数据。
监控报表开发：使用 BI 工具（优先考虑公司内已有的），开发监控数据的统计报表。报表维度要全面，如按时间、地域、终端等多个维度统计核心指标。报表要定期发送给相关干系人。
监控告警开发：接入钉钉、Slack、短信、电话等告警渠道。当监控指标触发告警规则时，自动发送告警通知。告警内容要明确，如告警对象、告警原因、告警等级等。同时要有告警升级和恢复的机制。

以上的搭建过程，可以结合公司实际情况，使用开源项目搭建，也可以考虑使用公有云服务提供的日志、监控等组件，或者购买专业的第三方日志监控系统，可以更快的实现想要的效果。

在搭建完以上这些后，后续可以考虑根因分析模型，故障自愈机制，以及对于监控的标准处理流程，这些处理流程我们在后面的流程机制中再展开聊。

全链路监控系统的构建涉及方方面面，需要前端、后端、算法、运维等各领域通力合作。从需求调研，到方案设计，再到开发搭建、优化运营，每一步都要细之又细。尤为关键的是，监控系统的构建不是一蹴而就的，而是一个持续迭代、不断优化的过程。只有持之以恒地优化和完善，才能真正发挥监控系统的价值，为业务保驾护航。

3 高可用架构：稳定性的核心

前端的高可用，不仅要「治已病」，还要「防未病」。通过合理的架构设计，提高系统对各种异常情况的容错能力，让系统在局部出现问题时，仍然能维持整体的可用性，避免发生雪崩效应：

3.1 请求冗余

请求冗余是一种常见的高可用架构设计，旨在提高系统对网络故障和服务异常的容错能力。它通过在前端应用中增加请求的副本数量，确保在某个请求失败或超时的情况下，其他请求仍然能够正常执行，从而保证系统的可用性。

具体实现方式包括：

备用请求：在前端应用中，当一个请求地址不可用性，可以请求备用的地址，如多域名或多入口策略。这样可以避免因网络、链路故障而导致的系统不可用。
请求重试：在请求失败或超时的情况下，自动进行重试。重试策略可以根据具体情况进行配置，如指数退避、固定间隔等。
请求缓存：对于一些非实时性要求较高的请求，可以在前端进行缓存。这样即使后端服务出现故障，前端仍然可以返回缓存的结果，提高用户体验。

通过请求冗余的设计，可以有效减少因网络故障或服务异常而导致的系统不可用情况，提高系统的稳定性和可靠性。

3.2 服务降级

服务降级不仅是一个后端的高可用策略，同时也是一个前端的高可用策略。

服务降级是一种在系统负载过高或服务异常时，通过降低服务质量或减少服务功能来保证系统可用性的策略。在前端高可用架构中，服务降级可以应用于以下几个方面：

功能降级：在系统负载过高时，可以暂时关闭一些非核心功能，如评论、分享等，以减轻服务器压力。
数据降级：在数据获取失败或超时的情况下，可以返回默认数据或历史数据，避免因数据缺失而导致的页面错误。
界面降级：在页面渲染失败或加载缓慢的情况下，可以简化页面布局或隐藏部分内容，提高页面的加载速度和可用性。

通过服务降级的设计，可以在系统出现异常情况时，保证核心功能的可用性，提高用户体验。

3.3 灾备切换

灾备切换是指当系统发生故障或灾难时，能够快速切换到备用系统或备用数据中心，以保障业务的连续性和数据的安全性。在前端高可用架构中，灾备切换通常包括以下几个关键点：

多活数据中心：在不同的地理位置建立多个数据中心，每个数据中心都具备完整的业务处理能力。当某个数据中心发生故障时，可以快速切换到其他数据中心继续提供服务。
数据同步：通过数据同步机制，确保不同数据中心之间的数据保持一致。这样在切换到备用数据中心时，用户的数据不会丢失或出现不一致的情况。
自动切换：建立自动化的灾备切换机制，当检测到故障时，系统能够自动切换到备用数据中心，减少人工干预和故障恢复时间。
故障演练：定期进行故障演练，验证灾备切换机制的有效性，并及时发现和解决潜在的问题。

3.4 前端限流

参考服务端的限流理念，对一些高频触发的前端操作，也可以在前端侧进行限流。比如对某个按钮的点击，在一定时间内只允许触发一次。或对某个输入框的提交，限制提交频率。前端的限流一方面减少了无谓的请求，另一方面也避免了重复请求对服务端的冲击。

常见的前端限流策略包括：

请求频率限制：限制单位时间内的请求次数，超过限制的请求将被拒绝或延迟处理。
并发请求限制：限制同时处理的请求数量，避免过多的并发请求导致系统资源耗尽。
熔断机制：当后端服务出现故障或响应时间过长时，自动熔断前端请求，防止故障扩散和系统雪崩。

3.5 离线化方案

离线化方案是指通过在前端应用中增加离线功能，使得在网络不可用或不稳定的情况下，用户仍然可以正常使用部分功能。

如 PWA (Progressive Web App) 等离线化技术，将关键的静态资源、数据缓存在本地，即使在无网络的情况下，也能打开页面，执行部分核心功能。这在移动端尤其有用，可以抵御弱网、断网等网络异常。

常见的离线化策略包括：

资源缓存：将静态资源（如HTML、CSS、JS 等）缓存在本地，使得在离线状态下可以正常加载和渲染页面。
数据缓存：将常用的数据缓存在本地，使得在离线状态下可以正常访问和操作数据。
断点续传：在网络恢复后，自动恢复未完成的操作或数据同步，提高用户体验。

3.6 故障隔离

利用微前端架构，将一个庞大的前端应用拆分成若干个松耦合的子应用。不同子应用独立开发、独立部署，运行在不同的运行时环境中。当某个子应用出现故障时，不会波及到其他子应用。也可以考虑为每个子应用分配独立的错误监控和告警渠道，做到故障的精细化管理。

故障隔离可以通过合理的架构设计和故障处理机制，将故障的影响范围限制在最小范围内，避免故障扩散和系统崩溃。

3.7 后端容错

除了前端要做好容错，还要反向要求后端服务也要有足够的容错能力，比如接口的幂等性设计、请求的重试机制、服务的主从切换等。只有前后端协同，共建稳定，才能真正实现全链路的高可用。

后端容错是指通过在后端服务中增加容错机制，提高系统的稳定性和可靠性。常见的后端容错策略包括：

幂等性设计：幂等性是指对同一个接口的多次调用，返回的结果是一致的，不会因为多次调用而产生副作用。幂等性是容错的基础，可以确保在请求重试或者并发调用时，不会引入数据不一致或者重复处理的问题。
请求重试机制：当请求失败时，自动进行重试，直到请求成功或者达到最大重试次数。重试可以提高请求的成功率，减少因为网络抖动、服务瞬时不可用等原因导致的请求失败。但重试也要把握好度，避免无休止的重试加剧系统的负载。
服务降级：当服务负载过高或者出现故障时，主动关闭非核心功能，释放资源确保核心功能的可用性。降级可以防止服务因为过载而完全瘫痪。
数据校验：在接收到前端请求时，对请求参数进行校验，避免因参数错误而导致的系统异常。
异常处理：在服务内部增加异常处理机制，当出现异常时能够进行合理的处理和恢复。
服务熔断：当依赖的下游服务出现故障时，主动切断对下游服务的请求，避免故障传递和放大。熔断可以防止因为个别服务的故障而引发整个系统的级联失败。
服务限流：对请求的速率进行控制，避免服务因为突发的高并发流量而过载。限流可以保护服务的稳定性，避免因为个别客户端的异常流量而影响其他客户端。
服务隔离：将不同的服务部署在不同的机器或者容器中，避免单个服务的故障影响到其他服务。隔离可以提高故障的隔离性和系统的可扩展性。

3.8 模块化与组件化

模块化和组件化是高可用架构的重要实践，对于提高代码质量、降低维护成本，提高整体可用性有着重要意义。

模块化是指将前端代码划分为独立、可复用的模块，每个模块有明确的职责和边界。通过模块化，可以解决前端代码的耦合、重复问题，提高代码的可读性和可维护性。常见的前端模块化规范有 CommonJS、AMD、ES Module等。

组件化是指将 UI 和功能封装为独立、可复用的组件，每个组件有自己的状态、属性、事件等。通过组件化，可以提高UI开发的效率和一致性，方便进行功能复用和扩展。现代前端框架如 React、Vue、Angular 等，都提供了组件化的开发模式。

要实践好模块化和组件化，需要遵循以下原则：

单一职责：一个模块或组件只负责一个功能，避免职责混乱。
松耦合：模块或组件之间的依赖关系要明确、最小化，避免紧耦合。
可复用：模块或组件要提供通用的接口，方便在不同场景下复用。
可测试：模块或组件要容易编写单元测试，保证功能的正确性。
易维护：模块或组件的代码要简洁、易读、易修改，降低维护成本。

除了技术实现，模块化和组件化还需要有配套的管理机制，如模块注册、版本管理、文档生成等，以提高复用效率和降低维护成本。

通过模块化和组件化，可以将复杂的前端应用划分为清晰、可管理的模块和组件，提高代码的质量和复用性，降低Bug引入的风险，最终提升前端的稳定性。

通过以上几个方面的综合设计和优化，可以有效提高前端应用的高可用性，保障业务的连续性和用户体验。

4 性能管理：稳定性的保证

性能问题是稳定性的重要威胁之一。页面加载缓慢、交互反馈慢等性能问题，会极大影响用户体验，造成用户流失。因此，性能管理也是稳定性建设的重点领域：

4.1 性能指标

建立完善的性能指标监控和分析体系。关注各项性能指标，包括白屏时间、首屏时间、用户可交互时间、页面完全加载时间等。根据行业标准和自身业务特点，确立性能的目标值和衡量标准。当某个性能指标达不到目标值时，及时告警并分析原因。

在前面的指标体系和全链路监控中我们有详细讲，这里就不展开了。

不过需要明确的一点是，性能指标是性能管理的开始和结束，是一个闭环，从指标开始，也从指标结束，但是过程中不要盲从于指标，需要多方面的观测及洞察，发现问题及时处理。

4.2 性能优化

性能问题是影响用户体验和系统稳定性的重要因素，性能管理贯穿于前端应用的整个生命周期，通过性能监控、优化、回归等手段,持续保证系统的性能表现。

通过优化资源、代码、渲染、网络和交互等方面，可以有效提高应用的加载速度、响应速度和运行效率。

1. 资源优化

图片优化：选择适当的图片格式，如 WebP 或 JPEG XR，以减小文件大小。根据实际需求调整图片尺寸，避免不必要的大图加载。
CSS/JS 优化：合并和压缩 CSS/JS 文件，减少 HTTP 请求次数。使用CDN加速静态资源加载，并启用浏览器缓存以减少重复加载。
资源懒加载：对于非首屏展示的图片、视频等资源，采用懒加载技术，在用户滚动到可见区域时才进行加载。

2. 代码优化

减少DOM操作：频繁的DOM操作会导致页面重绘和重排，影响性能。应尽量减少DOM操作，或使用 DocumentFragment 等技术进行批量更新。
事件委托：使用事件委托技术，将事件处理函数绑定到父元素上，减少事件监听器的创建和内存占用。
节流和防抖：对于频繁触发的事件，如窗口大小变化或滚动事件，使用节流和防抖技术，减少事件处理函数的执行频率。

3. 渲染优化

避免布局抖动：减少布局和绘制的频率，避免频繁的样式变化和DOM操作。
使用 CSS 动画：相比于 JavaScript 动画，CSS 动画更高效，可以减少 JavaScript 的计算和渲染压力。
虚拟滚动：对于长列表或表格，使用虚拟滚动技术，只渲染可见区域的内容，提高渲染性能。

4. 网络优化

HTTP/2：使用 HTTP/2 协议，利用多路复用和服务器推送等特性，提高网络传输效率。
预加载和预渲染：对于即将访问的页面或资源，进行预加载或预渲染，减少用户等待时间。
优化网络请求：减少不必要的网络请求，合并请求，使用合适的请求方法和数据格式。

5. 异步加载

异步加载 JS/CSS：将非关键的 JS/CSS 文件设置为异步加载，避免阻塞页面渲染。
代码分割：使用代码分割技术，将代码拆分为多个模块，按需加载，减少初始加载时间。

6. 交互优化

及时响应用户操作：确保用户操作得到及时的反馈，包括出错情况的处理。
过渡动画平滑自然：使用平滑自然的过渡动画，提升用户体验。
减少用户等待：优化加载和响应时间，减少用户等待。
优化卡顿情况：确保交互响应迅速，避免卡顿，提供流畅的用户体验。

7. 兼容性和健壮性

兼容不同设备、系统和浏览器：确保应用在各种设备、系统和浏览器上都能正常运行。
异常和错误处理：对异常和错误进行妥善处理，保证页面稳定。
代码规范和质量控制：使用代码规范和质量控制流程，减少 bug，提高代码质量和可维护性。

在实施性能优化时，应根据具体情况选择合适的策略，并进行充分的测试和验证，确保优化效果符合预期，同时不会引入新的性能问题或兼容性问题。

5 风险治理：稳定性的屏障

风险治理是稳定性建设的重要防线和屏障，通过系统化的风险管控措施，最大限度规避和降低风险的影响。 风险治理主要包括告警管理和风险冒泡两大板块。

5.1 告警管理

告警是风险的重要信号，高效的告警管理可以显著提升风险发现和处置的效率。告警管理主要包括以下环节：

前端的告警和后端

告警规则管理
- 根据系统架构和业务特点，设置合理的告警规则和阈值。
- 定期评估和优化告警规则，持续提高告警的准确性和时效性。
告警通知管理
- 建立告警通知渠道，确保告警及时、准确送达相关责任人。
- 设置告警通知策略，根据告警级别和时段，采用短信、电话、邮件等多种通知方式。
告警分析
- 建立告警分析机制，对告警数据进行统计和分析，识别告警的规律和根因。
- 对高频告警进行重点关注，找出优化方向，制定改进措施。
告警闭环管理
- 建立告警处理流程，明确告警分派、处理、反馈、总结等环节的职责和要求。
- 跟踪告警处理进展，确保每个告警都得到及时、有效地处置和闭环。

前端的告警及风险和后端不同，其有自己独特的特点：

用户直观感受：前端性能问题直接影响用户体验，如页面加载慢、交互卡顿等，用户可以直观地感受到。相比之下，后端性能问题可能不会立即被用户察觉。
设备和网络多样性：前端运行在各种设备和网络环境下，如不同的浏览器、操作系统、屏幕尺寸、网络状况等。这增加了前端性能问题的复杂性和不可预测性。
报错收集难：前端错误发生在用户的设备上，不像服务端错误那样可以直接在日志中捕获。需要专门的前端错误收集和上报机制，如Sentry、FrontJS等。并且，线上环境的代码通常是压缩和混淆后的，错误堆栈信息难以定位到原始代码。需要通过sourcemap 映射，将错误信息还原到开发环境的代码中，方便问题定位和修复。
用户操作路径多：用户在前端有多种操作路径和使用方式，不像后端那样请求路径相对固定。这增加了前端性能问题的复现难度和定位难度。

针对这些问题，我们需要做更多的事情来处理以达到告警出来后的内容可分析，可定位，可优化。

5.2 风险冒泡

风险冒泡是一种主动的风险管理机制，通过自下而上地识别和评估风险，实现风险的早发现、早处置。风险冒泡主要包括以下环节：

风险识别
- 在架构设计、变更管理、故障处理等环节中，鼓励团队主动识别风险点。
- 建立风险登记机制，为风险识别提供渠道和工具支撑。
风险分析
- 对识别出的风险进行分析评估，判断风险的可能性和影响程度。
- 根据风险分析结果，确定风险的优先级和处置策略。
风险闭环
- 建立风险处置机制，明确风险处置的流程、职责和要求。
- 跟踪风险处置进展，确保风险得到有效管控和闭环。
- 定期回顾风险管理成效，持续优化风险管理流程和机制。

通过告警管理和风险冒泡等机制，提高风险管理的主动性和有效性，筑牢风险防范的堤坝，为系统稳定性提供坚实保障。

6 流程机制：稳定性的保障

稳定性建设不是一蹴而就的，需要长期的制度建设和流程固化。要形成一套体系化的工作机制和规范流程，让稳定性建设成为全员的自觉行动，常抓不懈、警钟长鸣：

6.1 前端质量周洞察

前端质量周洞察是一种定期回顾和总结前端质量状况的机制。通过每周或每两周一次的质量洞察会议，团队可以及时发现和解决前端稳定性方面的问题。质量洞察的主要内容包括：

监控数据回顾：回顾上周的前端监控数据，包括错误率、性能指标、用户体验指标等。重点关注数据的异常波动和恶化趋势，分析其原因并制定改进措施。
热点问题分析：总结上周的热点问题，包括影响较大的线上故障、用户反馈集中的痛点等。深入分析问题的根本原因，评估现有的解决方案，必要时进一步优化或重新设计。
版本质量评估：评估上周发布的新版本的质量情况，包括发布后的前端稳定性指标、用户满意度等。总结版本发布过程中的经验教训，优化发布流程和质量控制措施。
优化方案讨论：针对前端稳定性的薄弱环节，讨论和制定优化方案。优化方案可以涉及前端架构、开发流程、测试策略、监控体系等各个方面。明确优化方案的目标、实施步骤和评估标准。
行动项跟进：跟进上周质量洞察会议确定的行动项的完成情况。对于尚未完成的行动项，分析延迟原因，调整优先级和计划。对于已完成的行动项，评估其效果和改进空间。

通过定期的前端质量周洞察，团队可以形成持续改进的闭环，不断提升前端稳定性和质量水平。

6.2 灰度发布

灰度发布是一种渐进式的发布策略，通过逐步扩大发布范围，降低新版本的前端稳定性风险。灰度发布的主要流程如下：

制定灰度计划：根据新版本的改动范围和风险等级，制定灰度发布计划。明确灰度的阶段、时间节点、目标用户群等。设定每个阶段的质量门禁和评估标准。
小规模试点：先在内部环境或者很小规模的用户群中进行新版本的试点发布。密切监控前端稳定性指标，快速发现和修复问题。根据试点效果，决定是否继续扩大发布范围。
逐步扩大灰度：如果试点效果良好，则逐步扩大灰度的范围。可以按照地域、用户特征、业务线等维度，分批次地将新版本发布给更多用户。在每个批次后，都要评估前端稳定性指标，确保达到预期后再进入下一批次。
全量发布：当新版本的灰度范围扩大到一定规模(如50%的用户)，且稳定性指标持续良好时，可以考虑进行全量发布。但是在全量发布后，仍然需要密切监控一段时间，确保新版本的稳定性。
回滚机制：在灰度发布过程中，如果发现严重的稳定性问题，要有快速回滚到上一版本的机制。回滚机制要提前准备好，确保能够及时、安全地执行。

灰度发布可以有效控制前端稳定性风险，避免新版本的问题影响所有用户。但是灰度发布也需要额外的技术支持，如配置中心、AB测试、多版本并存等。

6.3 故障应急机制

故障应急机制是指在前端发生重大故障时，快速响应和处置的流程和措施。高效的故障应急机制可以最大限度地减少故障影响，保障业务连续性。故障应急机制的主要内容包括：

故障分级与升级：根据故障的严重程度和影响范围，将故障分为不同的等级(如P1、P2、P3等)。每个级别都要明确相应的响应时间和处理流程。当故障达到一定级别时，要及时升级，触发更高优先级的应急响应。
应急预案准备：针对可能出现的重大故障场景，提前准备应急预案。应急预案要明确故障的判断标准、应急组织架构、处理流程、通知机制、备用方案等。定期进行应急演练，检验和优化应急预案。
故障快速定位：当故障发生时，首要任务是快速定位故障根源。需要借助完善的前端监控体系，通过错误日志、性能指标、用户反馈等信息，缩小故障范围，找到关键线索。同时要建立故障定位的专家库，确保能够第一时间调动到专业人员。
故障处置与恢复：根据故障定位的结果，迅速制定和执行故障处置方案。处置方案要尽可能减少对用户的影响，如通过降级、限流、熔断等手段，保障核心业务的可用性。在故障恢复后，要及时通知用户，并进行事后复盘。
故障复盘与优化：每次重大故障后，都要进行彻底的复盘分析。复盘内容包括故障原因、影响范围、处置过程、经验教训等。根据复盘结果，制定优化方案，从架构、代码、流程等方面进行改进，避免类似故障再次发生。

高效的故障应急机制需要团队的紧密协同，以及平时的充分准备。通过不断演练和优化，打造一支高度敏捷和专业的故障应急队伍。

7 工程建设：稳定性的基石

工程建设是前端稳定性的基石，包括实验环境、自动化测试、CI/CD流程等，通过工程化手段提升研发效率和质量，为稳定性打下坚实的基础。

7.1 实验环境

实验环境是前端稳定性建设的关键基础设施，用于进行各种测试、验证和评估活动，确保前端应用质量和性能的基线。一个完善的实验环境需要满足多方面的需求，包括功能验证、兼容性测试、性能评估、回归测试等。

7.1.1 环境配置

实验环境应该尽可能模拟生产环境，以发现真实环境下可能遇到的问题。环境配置需要考虑以下几个方面：

操作系统和浏览器：覆盖主流的操作系统(如Windows、macOS、Linux)和浏览器(如Chrome、Firefox、Safari、Edge、IE等)，以进行兼容性测试。
设备类型：包括 PC、手机、平板等不同的设备类型，以验证响应式设计和适配效果。
网络环境：模拟不同的网络条件，如高延迟、弱网络等，以评估应用在不同网络下的性能表现。备注：此项要求较高，可以考虑有条件后再实施。
数据和配置：使用与生产环境相同或相似的数据集和配置，以发现数据相关的问题。

通过 Infrastructure as Code(IaC) 等技术，可以实现实验环境的自动化配置和部署，确保环境的一致性和可重复性。

7.1.2 兼容性测试

兼容性测试是验证前端应用在不同环境下正常运行的重要手段。实验环境需要提供全面的兼容性测试能力，包括：

多浏览器测试：在不同版本的主流浏览器下进行功能和UI测试，发现兼容性问题。
跨平台测试：在不同操作系统和设备类型下进行测试，验证应用的适配性。
自动化测试：利用 Selenium、Appium等自动化测试工具，执行跨环境的兼容性测试，提高测试效率和覆盖率。
兼容性问题管理：建立完善的问题报告和跟踪机制，及时发现和解决兼容性缺陷。

7.1.3 性能测试

性能测试是评估前端应用性能表现的重要手段，实验环境需要提供性能测试的基准和工具，因为实验环境是相对恒定的，可以基于这个相对恒定的环境，做好恨不能的基准测，确定及时了解各版本变化、业务迭代过程中性能的变化。包括：

性能指标：建立性能指标体系，如加载时间、响应时间、资源消耗等，作为性能评估的依据。
性能基准：在实验环境中建立性能基准，作为后续版本性能表现的参照。
性能工具：提供性能监控和分析工具，如 Lighthouse、WebPageTest 等，用于性能问题的发现和定位。
性能优化：根据性能测试结果，进行持续的性能优化，如资源压缩、缓存优化、懒加载等。

7.1.4 回归测试

回归测试是验证新版本引入的修改是否影响原有功能的重要手段。实验环境需要支持回归测试的自动化执行，包括：

自动化测试：将回归测试用例自动化，并集成到CI/CD流程中，在新版本部署到实验环境后自动执行。
测试覆盖率：建立完善的回归测试用例库，覆盖关键功能和场景，尽早发现回归缺陷。
测试报告：生成可视化的回归测试报告，显示测试执行情况和结果，便于问题分析和跟踪。

7.1.5 质量评估

实验环境还需要作为一个标准环境，用于评估前端应用的整体质量和性能表现，包括：

质量指标：建立质量指标体系，如缺陷密度、测试通过率、性能指标等，全面评估前端应用的质量水平。
版本比较：通过与历史版本的比较，评估新版本在功能、性能、稳定性等方面的变化和趋势。
预警机制：设置质量阈值和预警规则，当关键指标出现异常时，及时通知相关人员进行分析和处置。

通过构建实验环境，构建一个相对稳定和可靠的环境，实现兼容性测试、性能测试、回归测试等多个方面，并作为质量评估的标准环境。通过自动化配置、集成测试、持续优化等手段，不断完善实验环境的能力，提高测试效率和质量，为前端应用的稳定运行提供有力支撑。同时，实验环境的建设也需要与研发测试流程、质量标准等配套机制协同，形成完整的质量保障体系，促进前端工程的高质量、可持续发展。

实验环境可以考虑采购第三方平台，自行构建成本和维护成本太高。

7.2 CI / CD

CI 和 CD 是现代软件工程的核心实践，对于保障前端稳定性有着重要作用。

CI 指的是持续集成，即频繁地将代码集成到主干分支，并进行自动化构建和测试。通过 CI，可以尽早地发现和解决集成问题，保证主干代码的质量。一个完善的 CI 流程通常包括：

代码提交触发自动构建和测试。
执行代码质量检查，如 lint、format 等。
运行单元测试、集成测试，生成测试报告。
构建产物，如打包、压缩、上传 CDN 等。
通知相关人员，如构建失败时及时告警。

CD 指的是持续交付 / 部署，即自动化地将通过测试的代码发布到生产环境，实现快速、频繁、可靠的发布。CD的关键在于发布流程的自动化和标准化，通过规范的发布流程和工具，降低发布过程中的风险。一个典型的 CD 流程包括：

从 CI 产出的制品中获取最新的构建版本。
自动化部署到预发布环境，如准生产环境、灰度环境等。
进行人工验收或自动化验收，确认发布质量。
自动化部署到生产环境，如蓝绿部署、金丝雀发布等。
监控发布后的状态，如错误率、性能指标等，必要时进行回滚。

通过 CI/CD，可以大大提高前端的发布效率和质量，减少人工操作引入的不稳定性。同时，规范的 CI/CD 流程也为前端的质量门禁和风险控制提供了基础。

7.3 自动化测试

自动化测试是保障前端稳定性的重要手段。与手工测试相比，自动化测试具有效率高、覆盖全、稳定性好等优势。在前端工程中，常见的自动化测试形式有：

单元测试：测试独立的函数或模块，通过断言验证输入输出的正确性。
集成测试：测试多个模块间的协作，验证模块间的接口和数据流的正确性。
端到端测试：测试整个前端应用，模拟用户交互，验证UI和功能的正确性。
视觉回归测试：测试UI的外观和布局，通过截图比对等方式，发现UI变化引入的问题。

除了这些功能性测试，还需要进行非功能性测试，如性能测试、安全测试、兼容性测试等，以全面评估前端应用的质量。

要实施自动化测试，需要选择合适的测试框架和工具，如Jest、Mocha、Cypress、Puppeteer等。同时，要编写高质量的测试用例，覆盖重点功能和场景。自动化测试需要与CI/CD流程集成，在代码提交、构建、发布等环节自动触发，并生成可视化的测试报告。

通过自动化测试，可以在开发阶段尽早发现和修复缺陷，减少线上问题的发生。同时，自动化测试也为重构、优化等工作提供了质量保障，提高了前端的可维护性。

8 小结

和后端稳定性建设相比，前端稳定性建设的挑战不同，从大逻辑来却也是相同的，都是「预防为主，快速恢复」，将问题和故障扼杀在摇篮之中，就算是出了故障也能快速发现，快速处理，减少对用户的影响。

从过程来看，稳定性建设不是一个一蹴而就的过程，需要持续的投入。

过程中需要区分核心页面和非核心页面，考虑 ROI，优先保障核心业务模块的稳定性。

稳定性建设需要建立在真实、可量化的数据基础之上。我们收集并分析系统的各项指标数据，如白屏率、LCP、错误率、延迟等，用数据说话，找到问题点，一个个去解决，优化。

稳定性无止境，建设无止境。

关于后台稳定性建设的系统性思考

admin — Sun, 21 Jul 2024 00:25:06 +0000

后台系统具有 24 小时全天候运行、用户访问量大、数据处理复杂等特点，其稳定性对企业的业务连续性和用户体验至关重要。

影响后台系统稳定性的因素有很多，包括但不限于:

硬件故障：服务器、网络、存储等硬件设备出现故障。
软件缺陷：操作系统、中间件、应用程序等软件存在 bug。
人为失误：系统维护、变更操作不当造成的问题。
网络攻击：黑客入侵、DDoS 攻击等外部安全威胁。
突发流量：业务量突增导致系统过载，或者调用不当导致的后台流量突增
架构缺陷：系统架构不合理,存在性能瓶颈和单点故障.

稳定性建设的根本目标是保证后台系统持续、可靠地为业务提供服务。具体来说，需要从以下几个维度来考虑:

可用性：系统在约定时间内正常提供服务的能力
可靠性：系统在规定条件下和时间区间完成规定功能的能力
可维护性：系统易于进行故障诊断和修复的能力
可扩展性：系统能够通过扩容来适应业务量增长的能力
安全性：系统抵御各种外部攻击、非法访问、数据泄露的能力

只有在这些维度上达到一定的要求，才能称得上建设了一个高稳定性的后台系统。而要实现这些目标，需要从技术、管理、流程等多个层面入手，进行系统性的建设。

基于过去的一些经验，对稳定性的建设做一个相对系统性的思考，总共有 7 点：运维、高可用架构、容量治理、变更管理、风险治理、故障管理、混沌工程。

1 运维：稳定性的基础

运维是指在信息系统的生命周期中，对系统进行日常管理、维护和优化的过程。运维工作的核心目标是确保系统的稳定、高效和安全运行。

在稳定性建设中运维起着至关重要的作用，其主要包括标准运维和运维合规两大方面。

1.1 标准运维

标准运维是指根据行业最佳实践和企业自身需求，制定统一的运维流程、规范和标准，并严格遵循执行。标准运维的目的是提高运维效率，降低人为失误风险，保障系统稳定性。

标准运维通常包括以下 3 个大的方面：

1.1.1 运维标准与规范

制定包括环境管理、监控告警、数据备份和安全加固在内的一系列运维标准，形成统一规范。通过标准化建设，实现运维环境的一致性和可控性，减少各种差错和风险。

运维标准与规范通常包括以下几个方面：

环境管理标准：涵盖服务器硬件配置、网络架构设计、存储资源配置和环境部署规范等,确保基础设施环境的标准一致性。
监控告警规范：定义关键监控指标，合理设置告警阈值，规范告警处置流程，并建设统一的监控平台，实现全栈全链路的实时监控与告警。
数据备份策略：根据数据的重要性分级制定差异化的备份策略，选择合适的备份方式、周期和保留期限，并定期开展备份可用性检查，确保数据的安全性和可恢复性。
安全加固基线：针对操作系统、中间件等进行安全加固配置，制定安全加固检查表和配置基线，并建立补丁管理流程和安全合规审计机制，降低系统的安全风险。

除此之外，运维标准与规范还可能涉及资源命名与编码规则、文档管理要求、工具使用指引等各个方面的标准化要求，形成一套全方位、多层次、相互关联的标准规范体系。

1.1.2 运维流程管理

运维流程管理包括变更管理、事件响应、问题管理和服务请求等各个运维流程，形成规范化、标准化的工作模式。通过流程的贯通执行和持续改进，提升运维效率和质量，快速响应业务需求。

运维流程管理通常包括以下几个方面：

变更管理流程：规范变更需求提交、评审、审批、实施、验证等各个环节，确保变更过程可控、风险可控，最大限度减少变更对业务的影响。
事件响应流程：明确事件报告渠道、分类机制、处理流程、升级机制等，确保事件能够得到及时发现、准确定位、快速处理和彻底解决，将事件影响降到最低。
问题管理流程：建立问题发现、记录、分析、解决、验证等闭环流程，并通过知识库的建设和持续优化，不断提升问题管理效率和问题解决能力，预防问题的再次发生。
服务请求流程：运维日常工作的重点，规范服务请求的受理、分类、派单、跟踪、解决、确认等环节，提供标准化、高效化的运维服务，提升用户满意度。
容量管理流程：定期开展系统容量评估和趋势分析，合理规划和调配各项IT资源，满足业务增长需求，避免出现资源瓶颈和性能降级。
配置管理流程：全面梳理和管控IT基础设施的配置信息，包括软硬件版本、参数设置、逻辑关系等，确保配置信息的准确性、一致性和可审计性。
发布管理流程：规范应用系统和基础设施的发布活动，包括发布计划、发布实施、发布验证等，确保发布过程安全、平稳、高效，降低发布风险。

运维流程管理的核心在于将各项运维活动标准化、规范化、流程化，通过 PDCA（计划-执行-检查-处置）的循环来不断优化流程、提升效率、改进质量，进而为业务发展提供高水平的运维保障。

还要注重流程间的协同和贯通，构建起一套相互关联、环环相扣的运维流程体系，实现端到端的运维服务管理。

1.1.3 运维质量保障

建立应急预案管理和运维巡检两大质量保障机制，最大限度规避和控制运维风险。

通过应急演练和故障复盘，不断优化应急处置能力；通过规范化巡检和数据分析，实现运维质量的可视化和可管理性。

运维质量保障通常包括以下几个方面：

应急预案管理
- 应急预案分类：根据故障类型和影响程度，制定不同级别的应急预案，如系统级、业务级、组件级等，明确各类场景下的应急处置流程和方案。
- 应急资源准备：梳理应急处置所需的人员、备件、工具等资源，并进行合理配置和管理，确保在应急状态下能够快速调用和使用。
- 应急演练计划：制定定期的应急演练计划，模拟各种故障场景，检验应急预案的可行性和完备性，并根据演练结果不断优化和完善应急预案。
- 故障复盘与优化：故障处理完成后，及时进行复盘分析，总结故障原因、处理过程、恢复时间等关键信息，并针对性地优化应急处置流程和方法，提升故障处理效率和效果。
运维巡检机制
- 巡检对象与周期：明确运维巡检的对象和范围，如硬件设备、网络设备、操作系统、应用系统等，并根据不同对象的特点和重要性，合理设置巡检周期，如日巡检、周巡检、月巡检等。
- 巡检内容与标准：制定详细的巡检内容和操作规范，包括各项指标的正常范围、检查方法、异常处置等，确保巡检过程的规范性和准确性，保证巡检结果的可比性和可追溯性。
- 巡检工具与平台：充分利用自动化运维工具和智能巡检平台，提高巡检效率和覆盖率，减少人工巡检的遗漏和误差，实现对关键指标的实时监测和趋势分析。
- 巡检结果管理：规范巡检结果的记录和报告格式，建立巡检结果的审核和问题整改机制，对巡检发现的异常和隐患及时处置和跟踪，形成闭环管理，防止小问题演变成大故障。
持续服务改进
- 服务绩效评估：建立完善的服务绩效评估体系，从系统可用性、事件处理效率、用户满意度等多个维度，定期评估运维服务的质量和水平，并将评估结果可视化呈现。
- 优化改进机制：针对绩效评估中发现的问题和不足，进行原因分析和改进措施制定，形成持续优化、持续改进的良性循环，不断提升运维管理成熟度和服务质量。
- 质量管理体系：建立规范的 IT 服务管理体系（如ITIL）和质量管理体系，贯穿运维各个环节，从制度、流程、工具等方面入手，实现运维工作的标准化、规范化、精细化。

运维质量保障是一个持续不断的过程，需要从应急管理、日常巡检、服务改进等多个角度入手，建立起完善的质量保障体系和机制，从而在提高运维效率的同时，保证业务系统的高可用性和稳定性，更好地支撑企业业务的发展。

1.2 运维合规

运维合规是指在 IT 系统和业务运营过程中，严格遵守各项法律法规、行业标准、企业内控制度等合规要求，并围绕安全生产这一核心目标，从流程、工具、规范等方面入手，对各类运维操作进行安全预防、过程监控、结果稽查等全流程管控，确保运维工作的规范性、安全性、可审计性，防范各类违规操作和安全风险。

运维合规的范围涵盖了 IT 运维的方方面面，包括但不限于：

统一账户权限管理：对所有运维人员的账户进行统一管理，根据岗位职责和业务需求设置相应的操作权限，并定期进行权限复核和调整。特别是对于 DevOps 平台、云平台、堡垒机等关键系统，要从严管控运维人员的访问权限，防止越权操作和数据泄露。
规范化运维操作：建立标准化的作业指导书和操作规范，明确各类运维操作的流程、注意事项和风险点，并通过运维平台等工具进行统一管理和执行，杜绝私自运行脚本、登录宿主机进行命令操作等不规范行为，确保运维操作的透明化和可追溯性。
高危操作管控：对数据库删表、Redis 清库等高危操作进行严格管控，通过黑白名单机制、命令审批流程等方式进行有效拦截和禁止，并建立高危操作台账，定期进行安全评估和优化改进。
运维审计与稽查：建立完善的运维操作日志管理机制，对运维人员的所有操作进行详细记录和跟踪，并定期开展运维合规性稽查和安全审计，及时发现和整改各类违规操作和安全隐患。
外包商管理：对第三方运维服务商进行合规性管理，明确相关安全要求和责任界定，并通过合同约束、过程监管等方式，确保外包运维服务的合规性和安全性。

运维合规是一项系统性、持续性的工作，需要从制度、流程、技术、人员等多个层面入手，形成完善的合规管理体系。

2 高可用架构：稳定性的核心

如果说运维是稳定性建设的基础，为业务系统的稳定运行提供必要的环境和保障，那么高可用架构则是直接决定了业务系统能够达到怎样的稳定性和连续性的关键所在。高可用架构从系统自身的角度出发，通过合理的架构设计和技术手段，最大限度地规避各种潜在的故障风险，即便在发生局部故障的情况下，也能够确保业务流程的连续性和数据的完整性，将故障影响控制在最小范围内。

那么，如何构建高可用架构呢？我们可以从预防和容灾两个维度来展开。

2.1 预防：从架构层面提高系统可用性

预防措施旨在从架构层面预防稳定性问题，提高系统可用性。主要包括以下几个方面：

2.1.1 依赖治理

在复杂的分布式系统中，服务之间的依赖关系错综复杂，如果不加以治理，极易形成服务间的强依赖和紧耦合，一旦某个服务发生故障，就会迅速蔓延至整个依赖链路，造成连锁反应和大面积不可用。因此，依赖治理是预防性措施中极其重要的一环。

依赖治理的首要任务是全面梳理系统中的核心链路的服务依赖关系，绘制出清晰的服务依赖拓扑图。

请注意，这里需要明确核心链路，并不是所有的链路都需要做依赖治理，我们做的每一项动作对于企业来说都是成本，需要基于成本意识来做这些工作。

在完成梳理的基础上，我们要审慎评估每一处依赖的必要性和合理性，对于非关键性的依赖或者弱依赖，在实现层面做成可丢弃；对于不可避免的依赖则要制定完善的服务降级和熔断预案，确保在依赖服务不可用时，不会殃及到当前服务的核心功能。

同时，还要注重服务接口的健壮性设计，包括入参校验、结果校验、异常处理等，避免由于接口问题引发的依赖方故障。

2.1.2 容量治理

在第 4 节详细展开讲

2.1.3 隔离设计

隔离设计的本质是避免局部问题殃及全局。

在复杂的分布式系统中，「部分」和「整体」往往是一对矛盾体。一方面，我们希望通过分而治之的思想，将系统拆分为相对独立的模块和服务，以降低单个组件的复杂度；另一方面，过多的服务化拆分又不可避免地带来服务间的频繁交互和紧密耦合，使得局部的故障极易扩散至整个系统。因此，合理的隔离设计就显得尤为重要。

隔离设计的第一要义是界定好故障域。故障域是指在故障发生时可能受到波及的一个逻辑区域。我们要尽可能缩小每个故障域的范围，避免出现「木桶效应」，即一个薄弱的故障域导致整个系统的不可用。具体到系统架构设计中，就是要遵循「高内聚、低耦合」的原则，将容易产生故障的组件划分在同一个故障域内，而不同故障域之间则尽可能解耦和隔离。

要做好故障域内的容错和隔离设计。对于无状态服务，主要通过负载均衡将请求分散到多个实例，避免单点故障；对于有状态服务，则要采用主备、集群等模式，确保在部分节点失效时，服务依然能够正常运转。而对于一些关键的资源，如带宽、连接池、线程池等，则要做好资源隔离和限制，避免被某个服务或请求独占而影响其他服务。

数据隔离。 一方面，不同业务数据和用户数据要进行合理的拆分，存储在不同的数据库实例乃至物理机器上，避免由于表结构设计不合理、SQL 语句执行异常等原因，导致整个数据库实例不可用。另一方面，对于缓存、消息队列等中间件，也要根据业务边界和数据特征，设置不同的实例或 topic，避免相互干扰。

2.1.4 「无损」变更

在系统的日常迭代和升级中，变更引入的风险往往是稳定性问题的重要诱因。为了最大限度规避这些风险，「无损」变更的架构设计至关重要。

现在成熟可靠的变更策略已经非常普遍，如灰度发布、蓝绿部署等，需要我们在实际工作中抓紧落实。灰度发布是指在生产环境中划出一部分实例作为灰度服务器，先在灰度服务器上进行新版本部署，经过一段时间的监控和验证后，再逐步扩大范围，最终实现全量发布。而蓝绿部署则是准备两套完全相同的生产环境，一套作为当前运行版本，另一套作为待发布版本，通过调整负载均衡配置将流量在两套环境间切换，实现平滑的版本升级。

要在关键链路设计可回滚机制，确保在变更出现问题时能快速恢复。这需要我们在需求实现，方案设计时就考虑在数据存储、服务接口等方面采用向前兼容的设计，并且对变更过程中可能出现的数据不一致、请求异常等情况制定完善的应对预案和回滚脚本，确保变更失败时，系统能够快速回退到之前的稳定状态。

最后，还要不断完善变更管理流程和工具链，提高变更的标准化和自动化水平。通过引入变更管理系统/发布系统对变更进行全生命周期追踪，规范变更申请、审核、发布、验证等各个环节；通过实施 CI/CD，将构建、测试、部署等步骤以流水线的方式固化下来，减少人工操作带来的不确定性。同时，还要加强变更过程的监控和告警能力，第一时间感知和应对潜在的风险。

2.1.5 压力测试

压力测试的目的是：模拟极限场景，找出系统瓶颈

不论是线上运行的系统，还是正在开发的新功能，我们都需要对其进行充分的压力测试，模拟各种极限场景，全面评估系统的性能表现和稳定性水平。

压力测试的关键是全面覆盖和贴近真实。测试场景要覆盖正常流量、峰值流量、异常流量等不同强度，以及不同的并发数、请求类型、数据量级等维度。测试数据则要尽量贴近真实的业务数据分布，避免「垃圾进，垃圾出」。

同时，压力测试还要协同监控体系。在施加压力的同时，要持续监控系统的 CPU、内存、网络等关键指标，找出可能存在的瓶颈和隐患。一旦发现问题，要及时分析原因，并制定优化方案，如优化代码、参数调优、扩充资源等。

通过反复的压力测试和优化，我们可以不断提升系统的性能上限和稳定性水平，做到「未雨绸缪」。当然，压力测试也要把握「度」，避免对线上系统造成过大影响。

2.1.6 健康检查

在分布式系统中，服务实例的数量动辄成百上千，如果某些实例出现异常，既影响自身服务能力，又可能带来连锁反应。因此，必须建立完善的健康检查机制，及时发现和隔离这些异常实例。

健康检查的对象，既包括服务实例本身，也包括实例所依赖的下游组件，如数据库、缓存、消息队列等。检查的内容则要全面覆盖服务的核心功能和基础资源，如接口响应时间、错误率、CPU 使用率、内存占用等。

健康检查的实施，需要贯穿服务的整个生命周期。在服务上线前，要对健康检查脚本进行充分的测试和验证，确保检查结果的准确性。在服务运行时，要配置合理的检查频率和阈值，既要及时发现问题，又要避免过度消耗资源。一旦发现异常实例，要立即将其从服务调用链路中隔离出去，并生成告警通知，直至异常情况消除后再恢复。

此外，还要定期巡检和优化健康检查规则本身，动态调整检查粒度和阈值标准，确保其始终与系统的实际情况相匹配。

通过全面而细致的健康检查体系，我们可以最大限度减少异常实例带来的影响，为整个分布式系统构筑一道坚实的「免疫屏障」。

2.2 容灾：最大限度保障业务连续性

容灾措施旨在最大限度减少故障影响范围，保证关键业务的连续性。主要包括以下几个方面：

2.2.1 弹性伸缩

弹性伸缩的作用是动态调整资源应对流量突增

在互联网系统中，流量的波动往往是不可预测的。一旦出现流量突增，系统资源如果不能及时扩容，就极易出现服务不可用的情况。因此，弹性伸缩是容灾措施中极其重要的一环。

弹性伸缩的核心是「随需而变」。当流量增加时，系统能够自动检测到资源使用率的变化，并迅速启动新的服务实例来分担压力；当流量回落时，多余的实例也会被自动释放，以节约成本。这个过程通常是全自动的，无需人工干预。

实现弹性伸缩的关键是对服务进行合理的拆分和解耦。首先，要将服务拆分为独立的、无状态的组件，使其能够灵活地进行水平扩展。其次，要解除这些组件之间的强依赖关系，使其能够独立地进行扩缩容，而不会相互牵制。再次，还要实现组件与资源的解耦，使得组件不与特定的物理资源绑定，而是可以自由地在资源池中调度。

同时，弹性伸缩还需要一套完善的配套设施。比如监控系统，能够实时采集服务的各项指标，及时发现需要扩容的场景；调度系统，能够根据预设的策略自动完成实例的创建和销毁；配置管理系统，能够管理新实例的各项配置，确保其顺利加入服务集群。

以上的这些系统以及伸缩的逻辑在公有云上已经有比较成熟的方案，包括监控、发现、调度扩容等。

通过弹性伸缩，我们可以让系统在流量洪峰中从容应对，避免因资源不足而引发的可用性问题，同时也能在流量回落时自动「瘦身」，提高资源利用率。

2.2.2 过载保护

过载保护的作用是避免过载请求拖垮系统，属于及时止损，保证部分用户可用的一种降级策略。其主要手段是限流熔断。

在复杂的分布式系统中，某些服务或资源可能会不可避免地出现响应缓慢、不可用等情况。如果任由上游的请求持续涌入，往往会加剧这些服务或资源的负荷，最终可能导致整个系统被拖垮。此时我们就需要实施限流熔断。

限流的目的是对请求的并发数进行控制，避免服务因过载而崩溃。常见的限流算法有漏桶算法、令牌桶算法等，通过设置一个固定的「流量阈值」，超出阈值的请求要么排队等待，要么直接拒绝。限流可以在不同的粒度上实施，如针对某个 API 接口、某个服务实例、某个用户等。

而熔断的作用则是在服务出现问题时，自动切断上游请求，避免问题进一步恶化。熔断机制通常基于「断路器」模式实现。当被调用服务的错误率或响应时间超出某个阈值时，断路器会自动「打开」，后续的请求会直接返回错误，而不会真正发往后端服务；经过一段时间后，断路器会进入「半开」状态，尝试发送部分请求到后端，如果调用成功，就自动「关闭」断路器，恢复正常调用，否则重新进入「打开」状态。

限流和熔断往往是配合使用的。限流避免了过多的请求压垮服务，而熔断则在服务已经出现问题时，自动隔离故障影响。两者相互补充，共同构筑起一道坚实的「屏障」，维护系统稳定性。

在实施限流熔断时，关键是设置合理的阈值和策略。既要避免阈值过高而失去保护作用，也要避免阈值过低而过度拒绝正常请求。通常可以先设置一个相对宽松的阈值，再根据系统实际运行情况不断进行调优和优化。同时，限流和熔断的设计还要考虑用户体验，对不同的请求进行区分处理，确保核心功能不受影响。

通过科学的限流熔断，实施过载保护，我们可以有效防止「雪崩效应」的发生，避免局部的故障演变为整体的故障，为系统稳定性提供有力保障。

2.2.3 柔性可用

柔性可用强调的是在保证核心功能可用的前提下，允许非核心功能出现一定程度的降级或不可用，从而避免因局部问题影响整体可用性。这是一种更加灵活、务实的容灾思路。

传统的容灾设计往往追求「刚性可用」，即不允许任何功能出现任何失效。这种追求「完美」的做法，看似合理，实则过于理想化。在复杂的分布式系统中，局部的故障在所难免，过度追求「零容忍」反而可能适得其反。

而柔性可用的理念则更加务实。它认为，在确保核心业务连续性的基础上，可以容忍非核心功能的局部失效，或者出现一定程度的服务降级。这种「有控制的失效」，虽然可能在一定程度上影响用户体验，但却能避免因局部问题引发全局瘫痪，是一种值得权衡的策略。

举个简单的例子，假设一个电商平台的下单功能出现故障。如果采用「刚性可用」的策略，可能会直接禁止下单操作，甚至关闭整个平台。而如果采用「柔性可用」的策略，可能会暂时屏蔽优惠券、礼品卡等非核心功能，同时简化下单流程，确保用户能够完成基本的购买行为。这样虽然可能影响部分用户的购物体验，但却能保住大部分订单，避免更大的经济损失。

实施柔性可用需要对系统有清晰的分层认知。通常我们可以将系统分为多个「可用性层级」，每个层级对应不同的业务重要性和容错标准。对于最核心的功能，要确保 99.99% 以上的高可用；而对于次要功能，可以适当降低标准，允许 99.9% 或 99% 的可用性。同时，还要在不同层级之间设置合理的隔离措施，避免低层级的故障向高层级蔓延。

此外，柔性可用的理念还强调「快速止损」和「平滑降级」。「快速止损」是指当故障发生时，要迅速判断影响范围，并采取措施阻断故障扩散，将损失控制在最小范围内。而「平滑降级」则强调要给用户适当的提示和引导，避免服务骤降或直接不可用，造成用户困惑和恐慌。比如，可以在下单时给出「优惠券功能暂不可用」的温馨提示，引导用户继续完成购买。

柔性可用的本质是一种「务实」的容灾哲学。它认为，与其追求不切实际的「完美」，不如脚踏实地地做好「权衡」。通过对核心业务和非核心业务的分层处理，通过对不可用场景的提前预演和定义，在保证核心功能的前提下，适度容忍局部的缺陷和失效，换取整体的韧性和稳定性。这种务实的态度和方法，对于构建复杂系统的容灾能力至关重要。

当然，柔性可用绝不意味着对故障和缺陷的放纵。它更强调要建立完善的监控预警机制，对各种指标进行实时的采集和分析，尽快发现和定位问题。同时，还要通过压测、混沌工程等手段，对系统进行持续的「健康检查」，主动发现和暴露问题。只有在平时就养成对问题「零容忍」的态度，在故障来临时才能从容应对，做到「柔中有刚」。

2.2.4 应急预案

凡事预则立，不预则废。

应急预案是指提前制定故障处理方案。

在复杂的系统中，意外和故障在所难免。而区分一个团队的优秀与否，很大程度上在于面对危机时的反应能力。这就需要我们未雨绸缪，提前制定完善的应急预案。

应急预案的第一步是要全面梳理系统可能出现的各种故障场景，从服务层面、数据层面、基础设施层面等不同维度，尽可能穷尽所有的风险点。在此基础上，还要分析每种故障场景的影响范围、严重程度、发生概率等，进行必要的风险评估和分级。

然后，针对每一种故障场景，都要制定周密的应对措施。这包括监控预警、故障诊断、应急处置、恢复验证等不同阶段的工作流程和操作规范。在设计应对措施时，要本着「快速止损、降低影响」的原则，注重实效性和可操作性。同时，还要明确各个环节的职责分工和协作机制，确保在危机发生时，能够快速形成合力。

应急预案形成后并非一劳永逸，还需要定期进行推演和演练。一方面，通过不断地练习，可以找出预案中的漏洞和不足，并加以改进；另一方面，也能锻炼团队的应急反应能力，提高实战水平。演练的过程也是一次全面的「体检」，能够发现平时难以察觉的问题，可谓「治未病」的良方。

2.2.5 异地多活

以上提到的容灾措施，大多是针对系统内部的纵向防御。然而，在现实中，我们还必须面对各种不可抗力的外部风险，如自然灾害、断电断网等，它们可能导致整个机房、乃至整个地域的长时间不可用。因此，在容灾体系中，我们还必须考虑横向扩展，通过异地多活的架构，实现跨地域的容灾能力。

异地多活的本质是将服务分布到多个地理位置上，每个位置都有独立完整的基础设施和应用部署，将横向扩展实现跨地域容灾。这些不同位置的服务相互之间是对等的，它们共同承担生产流量，同时互为备份。当任何一个位置出现故障时，其流量可以自动切换到其他位置，保证服务的连续可用。

实现异地多活需要考虑方方面面的因素。首先，要选择合适的地理位置。通常应该选择多个距离适中、网络连通性好的城市，并尽量避开容易发生自然灾害的区域。其次，要做好数据同步。由于不同位置的服务是独立运作的，它们的数据在一定程度上是分离的。因此，必须建立高效可靠的数据同步机制，确保不同位置的数据最终一致性。再次，还要设计好流量调度策略。正常情况下如何在不同地域间分配流量，故障发生后又如何进行切换，都需要制定完善的规则和算法。

异地多活的关键挑战在于如何平衡「容灾能力」和「系统复杂度」。一方面，地理位置越多，容灾能力就越强，但同时系统的复杂度也就越高，对网络带宽、数据同步、运维管理等方面的要求也越高。另一方面，如果盲目追求「异地」而忽视了「多活」，可能会适得其反。比如一味增加机房数量，但没有做好同城双活，反而可能降低单个机房的可用性。因此，异地多活方案的设计需要全盘考虑，权衡利弊，找到最佳的平衡点。

并且，异地多活还对应用架构提出了更高的要求。为了实现流量的无缝切换，应用必须具备横向扩展的能力，能够灵活调整服务实例的数量和分布。同时，应用还必须尽可能实现「无状态」，将状态数据托管到外部的存储服务中，以方便不同地域的实例共享数据。这就需要我们在应用设计之初就铭记异地多活的需求，合理划分服务边界，松耦合、可扩展、易维护。

异地多活是一把「双刃剑」，实施得当可以大幅提升系统的可用性和稳定性，但实施不善也可能带来更多的不确定性和管理成本。因此，异地多活绝非权宜之计，而是需要长期的规划和建设，需要不断打磨和优化。只有综合应用各种容灾手段，分层设防、纵深防御，才能为关键业务筑牢稳定性的「防护网」，无惧各种突发状况和不确定性的考验。

3 变更管理：稳定性的关键

变更管理是后台系统稳定性建设的关键环节。一个系统当不再变更，线上可能出问题的概率会减少很多。

任何对系统的变更，如果处理不当，都可能引入新的故障点，威胁到线上稳定性。因此需要建立完善的变更管理机制，规范变更流程，最大程度地降低变更风险。从变更前、变更中、变更后三个阶段来详细阐述变更管理的实践。

3.1 变更前

变更执行前的管理包括变更审批、变更评审、风险评估等环节。

通过严格的变更前置管理，可以从源头规避变更引入的稳定性风险，为变更的顺利实施奠定基础。

变更前的管理事项主要包括以下几个方面：

变更申请与审批：变更申请人填写变更申请单（可以是电子单，也可以是变更群里按规范写的一个描述），详细说明变更原因、目的、内容、影响范围、风险及执行计划等。变更申请提交评审委员会或管理层审批，确保变更的必要性和可行性。有些变更可以不做，或者晚点再做等。
可行性与风险评估：评估变更的技术可行性，可能带来的风险点以及优先级等。
制定变更计划：确定变更的实施时间、所需时长，选择业务低峰时段。制定详细的技术实施方案、验证计划和回滚预案。明确参与人员的角色分工和职责。
准备与通知：准备变更所需的软硬件环境，提前通知所有利益相关方，包括但不限于用户、业务方、运维人员等。

3.2 变更中

变更执行中需要严格按照变更计划操作，并做好应急准备。主要包括以下：

备份数据：为避免变更失败导致数据丢失或损坏，需提前做好数据备份，必要时准备回滚方案。
监控变更过程：变更过程中需对系统各项指标进行实时监控，一旦发现异常及时处理。
灰度发布：对于影响面较大的变更，建议先在小流量进行灰度验证，逐步扩大变更范围。灰度期间密切关注系统状态。
不在业务高峰期变更：选择业务低峰时段进行变更，尽量减少变更过程中的影响面。
准备应急预案：针对可能出现的风险，提前准备应急预案和回滚方案。一旦发生严重问题，及时按预案操作，将损失降到最低。

3.3 变更后

变更实施完成后同样需要持续管理，主要包括：

监控变更效果：持续观察变更对系统造成的影响，密切关注系统稳定性。
问题处理：如发现变更导致的问题，需深入分析根因，制定解决方案，并纳入知识库。
更新文档：将变更内容同步到系统文档、操作手册、架构图等材料中，确保文档与系统实际状态一致。很多团队这一环是缺失的，变更完就不管了。
变更复盘：对变更的效果、问题等进行全面复盘总结，作为经验积累，优化后续变更管理。如有必要的话。

规范的变更管理流程可显著提升系统稳定性。将变更计划、实施、复盘等形成闭环，不断积累优化，持续强化稳定性保障能力，共同守护后台系统这座无法停歇的「永动机」。

4 容量管理：稳定性的保障

容量治理是稳定性建设的保障。通过合理的容量规划和扩展策略，可以避免系统因超负荷而崩溃。

稳定性问题的一个常见诱因是资源不足，如 CPU、内存、磁盘、网络等瓶颈导致的系统不可用。而资源不足的根源，往往在于容量规划不到位，没有提前预估业务增长和资源消耗，或者预估不准，导致资源准备不足。

要做好容量管理，需要从容量评估和规划、监控预警、动态扩缩容来落地。

4.1 容量评估与规划

容量评估和规划是容量管理的起点。主要内容包括：

容量标准：包括资源池管理、资源使用标准等。全面梳理各类资源，建立统一的资源管理机制。
业务容量评估：评估当前业务量和增长预期，分析不同时期的容量需求。这里可能需要考虑引入常规压力测试。
资源使用情况分析：分析当前系统的资源使用情况，包括 CPU、内存、存储、网络等，找出容量瓶颈。
容量模型建立：根据业务特点和资源使用情况，建立容量模型，预测未来不同时间点的容量需求。需要明确哪些需要建立容量模型。
制定扩容方案：基于容量评估结果，制定扩容方案。方案需明确扩容时间点、扩容规模、优先级等。

4.2 容量监控与预警

容量监控是动态管理容量的重要手段，主要包括：

监控指标设置：设置合理的容量监控指标和阈值，如 CPU 使用率、内存占用率、磁盘空间使用率等。
监控系统搭建：搭建容量监控系统，实时采集和展示系统的容量指标数据。
性能压测：模拟各种极限场景，全面评估系统的性能表现和稳定性水平。
预警机制建立：建立容量预警机制，当指标达到预设阈值时，自动触发告警，通知相关人员及时处理。
故障诊断：当发生容量告警时，需迅速分析诊断问题根因，区分是临时性波动还是长期趋势，并给出解决方案。

4.3 动态扩缩容

传统的容量管理主要依赖事前的容量规划，难以应对突发的流量洪峰。云计算和微服务架构为实现动态扩缩容提供了便利，主要策略有：

自动扩容：利用云平台的弹性能力，设置自动扩容策略。当业务量超过阈值时自动增加资源，保障服务能力。此处需要考虑常备资源池，因为云平台的弹性能力也是需要资源来扩的，也不是无限制的。
成本优化：在满足容量需求的同时，需兼顾成本因素，权衡系统冗余度与扩容成本，并进行优化。同时，考虑在业务低谷时自动缩减资源配置，节约运营成本。

随着业务规模和系统复杂度的增加，仅仅依靠事后的纵向扩容已难以满足快速增长的容量需求。需要建立起完整的容量管理体系，综合利用容量规划、监控、预警、动态扩缩容等管理措施，建立起适应业务发展的动态资源供给机制，夯实系统高可用的基础设施，全力保障系统的稳定运行。

5 风险治理：稳定性的屏障

5.1 告警管理

告警是风险的重要信号，高效的告警管理可以显著提升风险发现和处置的效率。告警管理主要包括以下环节：

告警规则管理
- 根据系统架构和业务特点，设置合理的告警规则和阈值。
- 定期评估和优化告警规则，持续提高告警的准确性和时效性。
告警通知管理
- 建立告警通知渠道，确保告警及时、准确送达相关责任人。
- 设置告警通知策略，根据告警级别和时段，采用短信、电话、邮件等多种通知方式。
告警分析
- 建立告警分析机制，对告警数据进行统计和分析，识别告警的规律和根因。
- 对高频告警进行重点关注，找出优化方向，制定改进措施。
告警闭环管理
- 建立告警处理流程，明确告警分派、处理、反馈、总结等环节的职责和要求。
- 跟踪告警处理进展，确保每个告警都得到及时、有效地处置和闭环。

5.2 风险冒泡

风险冒泡是一种主动的风险管理机制，通过自下而上地识别和评估风险，实现风险的早发现、早处置。风险冒泡主要包括以下环节：

风险识别
- 在架构设计、变更管理、故障处理等环节中，鼓励团队主动识别风险点。
- 建立风险登记机制，为风险识别提供渠道和工具支撑。
风险分析
- 对识别出的风险进行分析评估，判断风险的可能性和影响程度。
- 根据风险分析结果，确定风险的优先级和处置策略。
风险闭环
- 建立风险处置机制，明确风险处置的流程、职责和要求。
- 跟踪风险处置进展，确保风险得到有效管控和闭环。
- 定期回顾风险管理成效，持续优化风险管理流程和机制。

通过告警管理和风险冒泡等机制，提高风险管理的主动性和有效性，筑牢风险防范的堤坝，为系统稳定性提供坚实保障。

风险管理不是某一个人事情，而是所有同学的事情，培养团队的风险意识和防控能力，将风险管理理念渗透到研发、测试、运维等各个环节之中，共同营造稳定可靠的系统环境。

6 故障管理：稳定性的防线

故障管理是稳定性建设的核心防守环节，其目标是在故障发生时，能够在 1 分钟内发现问题，5 分钟内定位到问题点，10 分钟恢复服务。

6.1 流程体系

完善的故障管理流程是高效处置故障的基础，主要包括：

故障恢复组织
- 成立专门的故障恢复组织，明确角色分工和职责，如现场总指挥、技术协调、对外沟通等。
- 建立 7×24 小时值班机制，确保故障发生时能够及时响应和处置。
故障处理流程
- 建立标准化的故障处理流程，明确故障报告、分派、处理、恢复、总结等各个环节的工作内容和产出物。
- 规范故障处理过程的信息同步和沟通机制，确保信息的及时、准确传递。
故障恢复预案
- 针对重大故障，提前制定恢复预案，明确故障判断标准、升级机制、恢复步骤等。
- 定期开展故障恢复演练，检验预案的可行性，提升故障处置能力。

6.2 可观测性

可观测性是故障管理的技术基础，通过完善的监控和度量体系，实现故障的快速发现和定位。主要包括：

服务级别协议(SLA)
- 与业务方共同制定 SLA，明确服务的可用性、性能等关键指标和目标值。
- 将 SLA 指标化，纳入监控范围，实时跟踪 SLA 达标情况。
监控设计
- 全面梳理系统的监控需求，设计合理的监控指标和阈值。
- 建立分层分级的监控体系，覆盖基础设施、中间件、应用、业务等各个层面。
- 融合黑盒监控和白盒监控手段，实现从用户体验到底层资源的全链路监控。
根因分析
- 建设完善的日志、指标、调用链等数据收集和分析平台，为故障诊断提供数据支撑。
- 规范日志打印和错误码设计，提高故障信息的可读性和可诊断性。
- 开发智能化的根因分析工具，利用机器学习、大数据等技术，提升问题定位效率。

6.3 持续改进

故障是暴露系统薄弱点的机会，需要通过不断复盘和改进，从根本上提升系统的稳定性水平。主要包括：

故障复盘
- 建立故障复盘机制，定期召开故障复盘会，全面回顾故障处理过程。
- 深入分析故障原因，找出架构设计、变更管理、应急响应等方面的改进点。
- 形成故障复盘报告，作为知识积累和经验传承的重要载体。
故障演练
- 定期开展故障演练，模拟各种故障场景，检验架构和预案的有效性。
- 针对演练发现的问题，制定整改计划，持续优化系统的容错能力。
混沌工程
- 在系统中主动注入故障，观察系统的响应和恢复情况。
- 验证系统在异常情况下的可用性和可恢复性，找出薄弱环节并加以改进。

通过构建完善的故障管理流程，提升系统的可观测性，加强故障复盘和改进，最终形成 「故障即机会」 的文化氛围，将故障管理打造成组织稳定性建设的核心竞争力。

7 混沌工程：稳定性的试金石

混沌工程是通过在系统中主动注入故障，来检验系统的容错能力和恢复能力的一种方法。

它源自 Netflix 的实践，其核心理念是「通过在生产环境中制造真实的故障，来建设系统抵御真实故障的能力」。

混沌工程可以帮助我们发现系统在异常情况下的薄弱点，并持续优化系统的韧性。

7.1 混沌工程原则

混沌工程的实践需要遵循一些基本原则，主要包括：

在生产环境中进行实验
- 只有在生产环境中进行实验，才能真实地验证系统的稳定性。
- 在其他环境中进行的实验，由于环境差异，可能无法发现真正的问题。
量化系统行为的稳态假设
- 在进行混沌实验前，需要定义系统正常行为的量化指标，如延迟、错误率等。
- 基于这些指标，设定稳态假设，作为判断实验是否成功的依据。
少量和可控的爆炸半径
- 混沌实验应该从小规模、低风险开始，逐步增加实验的复杂度和影响范围。
- 实验需要有完善的监控和回滚机制，确保在发生重大问题时能够及时止损。
自动化实验过程
- 混沌实验需要频繁、持续地进行，手工操作难以维持。
- 通过自动化手段，将实验过程编排为工作流，可以显著提高实验效率。

7.2 混沌工程工具

混沌工程的实施离不开工具的支持，目前业界已经有一些比较成熟的混沌工程工具，如：

Chaos Monkey：Netflix开源的混沌工程工具，可以随机终止虚拟机实例。
Chaos Mesh：一款云原生的混沌工程平台，支持在Kubernetes环境中注入各种故障。
Gremlin：商业化的混沌工程服务，提供主机、容器、网络等多层面的故障注入。
ChaosBlade：阿里巴巴开源的混沌工程工具，支持丰富的故障场景，如CPU满载、网络延迟等。

选择合适的工具，并将其集成到 CI/CD 流程中，可以帮助我们更高效、自动化地开展混沌工程实践。

7.3 混沌工程实践

开展混沌工程实践，一般包括以下步骤：

定义稳态假设
- 梳理系统的关键业务指标，定义正常情况下的量化阈值。
- 设定实验的成功标准，即在故障注入后，系统仍能满足这些阈值。
设计实验场景
- 基于系统架构和故障模式，设计实验场景，如服务不可用、数据库延迟等。
- 实验场景需要尽可能模拟真实的故障情况，但又不能对业务造成不可接受的影响。
执行实验
- 在生产环境中，对部分用户或服务实例，执行故障注入。
- 同时监控系统行为，验证是否满足稳态假设，是否触发了故障恢复机制。
分析实验结果
- 收集实验过程中的各项指标数据，分析系统在故障场景下的表现。
- 若发现问题，则需要深入定位原因，给出优化方案。
持续优化
- 基于实验结果，持续优化系统的容错和恢复能力，如改进缓存策略、超时机制等。
- 将实验场景纳入回归测试，确保优化措施在后续变更中持续生效。

混沌工程的实践是一个持续迭代的过程，需要在不断的实验和优化中，逐步提升系统的稳定性水平。

7.4 混沌工程的挑战

推行混沌工程也面临一些挑战，主要包括：

对业务的影响
- 混沌实验本质上是在生产环境中制造故障，可能会对线上业务造成影响。
- 需要在充分测试的基础上，谨慎评估实验风险，制定完善的应急预案。
组织文化的转变
- 混沌工程鼓励主动制造故障，这与传统的「恐惧变更」心态相悖。
- 需要在组织内部推行「拥抱故障」的文化，鼓励大家主动发现和修复问题。
工具和实践的成熟度
- 混沌工程仍是一个相对新兴的领域，工具和实践的标准化程度还不够高。
- 不同的系统和架构，可能需要定制化的实验场景和工具支持，这对实践者的能力提出了较高要求。

尽管存在挑战，但混沌工程对于提升系统稳定性的价值是毋庸置疑的。越来越多的互联网企业开始拥抱混沌工程，将其作为稳定性建设的重要抓手。相信通过不断的实践和积累，混沌工程必将成为构建高可用系统的利器。

8 小结

稳定性建设不是一个一蹴而就的过程，需要持续的投入。

过程中需要考虑 ROI，需要平衡业务和技术，需要和业务方或公司战略达到一致，不要自己偷偷搞。

过程中需要区分核心链路和非核心链路，我们无法确保所有服务都达到 4 个 9，考虑 ROI，优先保障核心业务的稳定性。

稳定性建设需要建立在真实、可量化的数据基础之上。我们收集并分析系统的各项指标数据，如请求量、错误率、延迟等，用数据说话，找到问题点，一个个去解决，优化。

稳定性无止境，建设无止境。