关于研发效能在组织层面的一些思考和总结

组织结构决定了信息流动、资源分配和决策过程的效率。在研发效能的提升中,扁平化的管理层级、跨功能的团队配置以及灵活的人员动态管理,都能够促进创新和加速决策过程。

最近在思考关于软件研发效能的事情,而其中关于组织层面有一些想法和总结,如下:

康威定律和逆康威定律

在 1968年,梅尔·康威在《Datamation》杂志发表文章《How Do Committees Invent?》,探讨了组织结构和系统设计的关系。其中一句话后来被总结为康威定律:「任何组织所设计的系统架构,都不可避免的反映为该组织沟通结构的副本。

康威在开发早期电子计算机系统的组织中观察到,组织的真实沟通路径(即价值创造架构)与最终的软件架构之间存在强相关性。这种同态力将软件架构和团队结构塑造成相同的「形状」。也就是说,构建软件需要理解团队沟通路径,以更加实际地考虑什么样的软件架构是可行的。如果理论上的系统架构与组织模型不符,就需要对其中之一做出改变。

当组织结构变化时,系统架构就会被影响,身在局中的我们感触非常深刻,本来负责 A 业务,调整后负责 B 业务,原来的工作就不想动了;本来在重构某块技术,想把历史的债务还清先,调整后也没有了动力。

作为一个技术人面对这种情况,有时也无能为力,调整后大量的时间是投入在当前的业务中,而看到的历史问题不在你的工作边界之中,只能看着历史债务越集越多,直到某一天,雪崩。

特别是后端,作为业务核心的技术部分,一个 24×7 要在线的,其稳定性,可用性都是非常重要的。

如何通过系统化的机制保障后续架构的稳定演进,并且不会随着组织结构的频繁变动而频繁变动?

要想抵抗组织结构对系统架构的影响,一种办法是适度隔离,比如采用内部开源的方式,让系统脱离具体业务组织而存在,代码由核心小组统一维护。这种虚拟组织不会随业务变动而变动,适用于底层框架、中间件等非业务模块。

但对于业务属性较高的模块,内部开源并不可行。因为其开发和维护需要对业务有深入理解,跨部门的认知成本太高。这时就需要换一个思路:利用康威定律,通过优化团队架构来引导系统架构,减少沟通和认知成本,实现理想的、高内聚低耦合的架构闭环。这就是逆康威定律的应用。

逆康威定律是 2015 年微服务兴起之际,ThoughtWorks 技术总监 James Lewis 提出的概念,即组织要根据他们想得到的软件架构来设计团队结构,而不是期望团队盲从一个被设计好的团队结构。

其中的核心观点在于,将软件架构看作一个独立的概念,认为它可以被孤立设计,然后交由任何团队来实现,这从根本上就是错误的。软件架构和团队结构的差异在所有架构类型中比比皆是,无论是客户端-服务端、SOA 还是微服务架构。这也是为什么为了让团队聚焦,单体架构需要拆分的原因。

通过逆康威定律的应用,我们可以先设计出理想的软件架构,然后根据这个架构来调整和优化团队结构。这样做的好处是可以更好地匹配业务需求,提高系统的内聚性和可维护性,减少不必要的沟通和协调成本。

具体来说,我们可以采取以下措施:

  1. 根据业务领域划分微服务,每个微服务由一个独立的团队负责开发和维护。这样可以让团队对自己的服务有更清晰的认知和掌控,减少跨团队沟通。
  2. 建立跨团队的架构治理机制,制定统一的架构原则、接口规范、质量标准等,确保微服务之间的一致性和互操作性。
  3. 加强团队内部的自治和责任心,鼓励团队自主决策、快速迭代、持续改进。同时赋予团队端到端的交付职责,避免因职责割裂导致推诿扯皮。
  4. 建设公共的技术平台和工具链,提供标准化的开发、测试、部署、监控等功能,减轻团队的基础设施负担,提高研发效率。
  5. 营造开放协作的文化氛围,打破部门墙,鼓励团队之间主动沟通和知识共享,形成学习型组织。

康威定律揭示了组织结构与系统设计的同构关系,而逆康威定律则为我们指明了一条突破之路:从组织架构入手,持续优化团队分工,才能推动系统架构向理想方向演进。这需要我们在组织设计上投入更多思考,用系统思维来对待研发效能问题。

团队的认知负载

认知负载是指在特定时间内,工作记忆中的信息负荷。对于个人而言,认知负载就是大脑需要同时处理的信息量。当我们将视角拓展到团队层面时,认知负载就变成了团队在执行任务时所承担的信息处理总量。

一个团队的认知负载并不等于团队成员认知负载的简单加总。团队协作过程中产生的交流、同步、协调等活动,都会带来额外的认知负载。同时,团队成员之间知识和技能的差异,也会影响到认知负载在团队内部的分配。

团队的认知负载也是影响软件研发效能的重要因素。

当系统复杂度超出团队的认知极限时,就会导致生产力下降、质量恶化等问题。

控制认知负载的关键,在于团队内部的”通晓全局”程度,即每个成员对系统的整体理解。

那如何判断团队是否处于认知过载状态?

可以从任务执行、团队氛围、个人状态三个维度来观察。

从任务执行的角度看,如果团队在面对新需求时响应速度明显变慢,对变更的适应能力下降,出现更多交付物质量问题,需要更多的返工和修复,这就是认知过载的典型信号。团队投入了更多的时间和精力,但产出的绩效却在下降,说明认知资源已经难以支撑高质量高效率的工作。

从团队氛围的角度看,如果团队成员之间的沟通变得低效和困难,产生更多的误解和冲突,知识共享和协作的意愿下降,整个团队的创新能力和解决问题的能力下降,团队士气低落,抱怨和消极情绪在蔓延,这也提示团队正在经历认知过载。当团队的认知资源捉襟见肘时,成员往往会降低对他人和整体的关注,转而专注应对自己的工作压力。

从个人状态的角度看,如果团队成员普遍感到疲惫和倦怠,对工作失去热情和主动性,工作与生活难以平衡,出现失眠、健康问题等身心状况,这往往是认知过载的结果。当个人长期处于高认知负荷状态,既要应对本职工作,又要参与大量协调和沟通,还要不断学习新知识,就很容易产生持续的压力感,陷入职业倦怠。

团队认知过载不是孤立的问题,而是会从任务执行、团队氛围、个人状态等方面综合反映出来。作为团队管理者,需要保持敏锐的洞察力,及时捕捉这些危险信号,采取针对性的优化措施,从而保障团队的可持续发展。

为了降低认知负载,我们可以从组织设计和架构设计时都做一些考虑。

在组织设计时,可以考虑如下几点:

  1. 适度聚焦。每个团队应该有明确的、聚焦的职责范围,避免过度分散精力。职责范围要与团队的认知能力相匹配,既不能太窄导致产能不足,也不能太宽导致认知过载。
  2. 职责自治。团队对自己的职责范围应该有较大的自主权,可以独立做出决策和优化。过多的外部依赖会增加认知负载。
  3. 边界清晰。团队之间、系统模块之间应该有清晰的边界和接口,减少耦合和认知依赖。
  4. 知识共享。鼓励团队之间主动分享知识和经验,建立共同的认知基础。但要注意,知识共享不等于职责共担。
  5. 弹性冗余。在关键领域,适当保留一定的冗余和备份,避免单点依赖。这样可以在保证产出的同时,降低认知负载的风险。

在架构设计时,可以考虑如下几点:

  1. 模块化和解耦。将系统划分为逻辑清晰、职责单一的模块,并通过松耦合的方式连接,减少模块之间的认知依赖。每个团队只需深入理解自己负责的模块。
  2. 接口驱动。通过定义清晰、稳定的接口规范,将模块的内部实现和外部用途解耦。调用方只需了解接口,而无需关心内部细节。
  3. 领域建模。从业务领域出发,识别出稳定的核心业务概念和流程,并据此设计系统模型。让软件架构尽量贴近真实世界,减少认知转换。
  4. 约定优于配置。通过制定统一的架构原则、编码规范、工具约定等,在团队之间形成一致的认知基础,减少沟通成本。
  5. 演进式架构。架构不是一成不变的,而是随着业务和技术的发展而不断演进的。因此要为变化留出空间,通过持续重构等手段,让系统在可控的范围内优化,避免大规模的推倒重来。

通过对认知负载的有效管理,我们可以显著提升团队的工作效率和整体协同能力。

认知负载,说到底是对人的真正尊重。而尊重,恰恰是最好的管理。

三种常见的团队组织

业务交付团队

业务交付团队,是组织中最主要和基础的团队组织。

业务交付团队是围绕清晰目标和职责,匹配持续变化的业务价值交付任务,形成独立高效工作流的长期、稳定、跨职能团队。

一个业务交付团队通常对应一条单一、完整的价值交付流,可以是一个产品、服务、功能集合、用户故事或用户画像等。团队拥有端到端的能力,能够独立完成从概念到交付的全部工作,快速、安全地持续创造用户价值,而无需依赖其他团队。

业务交付团队要尽可能贴近最终用户,通过生产环境实时监控,获得快速反馈,并据此迅速响应变化和问题。团队规模适中,由高素质的跨职能成员组成,保持长期稳定性,而不是随项目起起落落。

组织内通常存在多种业务交付团队,各自负责不同的业务流,如特定用户、业务领域、地理区域、产品条线等。无论承接何种业务流,团队都应围绕明确的待办事项和优先级开展工作,确保工作流的清晰和聚焦。

一个高效能的业务交付团队应该是这样的:

  • 他们的工作就像一条流水线,特性开发的各个环节衔接顺畅,没有太多卡壳和浪费
  • 团队时刻关注用户反馈和业务变化,能够灵活调整开发计划和优先级
  • 他们勇于尝试新事物,通过小步快跑的试错方式来推动改进,并善于从成功和失败中吸取教训
  • 团队内部各司其职、协同高效,很少需要跟其他团队交接工作
  • 他们交付的速度又快又稳,代码质量也有保障,还能兼顾技术升级和团队成员的健康
  • 团队会投入时间优化系统架构和代码,「修修补补」以防「房子」越来越破
  • 他们懂得借助专业团队的力量,定期跟架构、基建、工具等团队沟通,补齐短板,让自己更专注
  • 团队成员有足够的自主权,在技能上精益求精,工作目标明确,从而获得成就感和价值感

业务交付团队是组织的一线力量和价值核心,其他辅助型团队如技术智囊团和基建平台等,都是为了补齐能力短板、降低认知负载,让业务交付团队得以更高效地运转和创新。这种以业务交付为中心的团队组织模式,是相对于传统的职能式、项目式组织的一种进化。

组建长期、稳定、高度自治的业务交付团队,打造清晰的端到端业务流,是实现快速、频繁、可靠价值交付,适应快速变化的关键所在,代表了现代软件开发组织的进化方向。

平台团队

平台团队的目标是赋能业务交付团队,使其能够高度自治地交付工作。平台团队提供的内部服务,使业务交付团队无须开发底层服务,降低了认知负荷。这里的平台是指其作为公司内部的基础产品,向开发团队提供自服务的 API、工具、服务、知识和支持。借助平台,业务交付团队获得了自主性,可以更快地交付产品特性,减少开发过程中的各种协调、沟通。

业务交付团队可以方便地使用平台团队提供的自服务的网站门户和/或编程API(而非厚厚的使用手册)。「方便使用」是采纳平台的基本要求,并且平台团队必须将他们所提供的服务视为一种产品,无论这些服务是被内部还是外部用户所使用,要具有可信赖的、易用的、量身定做的特征。

平台团队可以提供不同级别的服务,但如果所有业务交付团队都要求高等级服务(如零停服务时间、自动扩缩容、自动修复),平台团队则难以支持。为避免人人都要求高等级服务,可以为这些内部基础设施和服务定价,向使用团队收费。

作为基础设施工程团队,平台团队需要聚焦于开发团队的工作流,以及应用和基础设施的改变如何影响用户。为了帮助开发团队用户更高效地使用平台,平台团队需要做到:

  1. 把内部平台视为线上/生产系统,计划和管理维护时间
  2. 引入软件产品管理和服务管理技术

一个高效能的平台团队应该有以下行为和产出:

  • 与业务交付团队密切协作,理解其需求
  • 依赖快速原型,尽早引入业务交付团队以获得快速反馈
  • 重点关注服务的可用性和可靠性,将平台视为产品,定期回访用户以确认服务是否满足需求
  • 自己也应是所提供服务的用户,与业务交付团队并肩战斗
  • 明白新的内部服务将像创新曲线那样被逐步引入,而非一蹴而就

平台团队和传统的基础设施团队略有不同,突破了传统基础设施团队与业务团队之间的隔阂,通过提供自助式的平台服务,赋能业务团队快速构建和交付应用。与传统基础设施团队相比,平台团队更加贴近业务,团队成员除了技术能力外,还需要具备产品管理、用户体验设计等技能。

专业系统团队

在软件开发过程中,有一些模块或逻辑涉及高深专业领域知识而显得特别复杂,开发和维护都需要相关领域的资深专家(人也特别贵),对于这样的专业系统,我们通常会单独构建团队,称为为「专业系统团队」。

专业系统团队的成员都是某个领域的能手,精通子系统涉及的核心技术。比如 AI 算法模型、视频编解码、特定数学模型、实时交易算法、财务报表系统、人脸识别引擎等,都是典型的复杂子系统,需要专业系统团队来专门负责。

组建专业系统团队的主要目的,是为了给使用这些核心子系统的业务团队减负。本来这些「绝世武功」需要专业系统团队的「武林高手」倾囊相授,现在业务团队只管安心用就行了,不必自己还得练上几年。这样不仅能让每个团队专注自己最擅长的事情,也能节省组织的时间和成本。

需要注意的是,专业系统团队和传统的「组件团队」有本质区别。后者的设立往往是为了让多个团队共用同一个组件,而专业系统团队纯粹是为了「解决疑难杂症」,和代码复用无关。

那么,一个高效能的专业系统团队应该是什么样的呢?

  • 在子系统的设计开发阶段,专业系统团队要和相关业务团队齐心协力,共同定义需求、制定计划、开发功能、测试验证,即「同进同出、战略合作」。到了后期子系统逐渐稳定了,专业系统团队就可以相对独立,专注于系统演进、接口优化等核心工作,和其他团队的互动会少一些。
  • 有了专业系统团队的加持,子系统的开发质量和速度都要明显好于单靠业务团队的情况。这可以作为考核专业系统团队绩效的一个重要指标。
  • 专业系统团队的工作安排要以服务好业务团队为宗旨。要紧贴一线,及时响应需求,灵活调整计划,按业务优先级来排期交付。

一些观点

  • 并非所有的沟通和协作都是有价值的。
  • 保持团队规模的相对稳定。
  • 在实现软件交付之前,先统一团队语言和共同协作方式。
  • 团队的代码所有权并非是在划分地盘。团队对代码的责任,不应该是「这是我的地盘,别人不能进来」,而应该是「这是我负责打理的一亩三分地,要让它生机勃勃」。
  • 软件设计不是非黑即白的选择题,而是一种平衡,如在选择架构时,不是要在单体架构和微服务架构之间做出选择,而是要适配团队的最大认知负载。

以上。

聊下缓存

在当今的互联网应用中,缓存作为一种提高系统性能的关键技术,扮演着至关重要的角色。无论是日常浏览网页、使用 APP,还是企业级应用的后台处理,缓存的存在无处不在。那么,什么是缓存?我们应该如何有效地利用缓存来优化系统性能呢?

什么是缓存?

从本质上来看,缓存是将数据暂时存储在比原始数据源更快的存储介质中,以便快速访问。其主要目的是减少数据访问的延迟,提高系统的性能,从而提升用户体验。

从一个 Web 请求的链路来看,主要有以下几种类型的缓存:

  1. 浏览器缓存:浏览器本地的缓存,包括内存缓存和磁盘缓存。可以通过 HTTP 响应头控制缓存策略,如 Cache-Control、Expires 等。
  2. DNS 缓存:本地机器或 DNS 服务器上对域名解析结果的缓存,可以加快后续对同一域名的访问速度。
  3. CDN 缓存:CDN 的边缘节点上的缓存,可以让用户从距离最近的节点获取资源,减轻服务器压力,提高响应速度。
  4. Web 服务器缓存:如 Nginx、Apache 等 Web 服务器自带的缓存功能,或者专门的缓存服务器如 Varnish 等。对请求进行缓存,可减轻后端服务器的负载。
  5. 应用层缓存:在应用程序中自己实现的缓存,如使用 Redis、Memcached 等内存型数据库对数据进行缓存,或者在代码中实现对特定数据的缓存。
  6. 数据库缓存:数据库本身的查询缓存,如 MySQL 的 Query Cache。会对 SELECT 语句及其结果进行缓存。
  7. 操作系统缓存:操作系统级别的文件系统缓存,如 Linux 的 Page Cache。可以加快对磁盘上同一文件的重复读取速度。

这些缓存按照其位置和类型,可以分为客户端缓存、网络缓存和服务端缓存。合理地利用各种缓存,可以显著提升 Web 应用的性能和用户体验。同时也要注意缓存的更新策略,以免数据不一致问题的出现。

1 客户端缓存

客户端缓存是指存储在客户端本地的缓存数据,主要是浏览器缓存。浏览器缓存是最常见的客户端缓存形式,它可以显著减少网络传输,加快页面加载速度,提升用户体验。

浏览器缓存主要包括以下两种类型:

  1. 内存缓存:
    • 内存缓存是指存储在内存中的缓存数据,读取速度非常快。
    • 但是内存缓存的生命周期较短,会在浏览器关闭时被清除。
    • 内存缓存一般用于存储当前页面中已经下载的资源,如页面文档、图片、脚本、样式表等。
  2. 磁盘缓存:
    • 磁盘缓存是指存储在磁盘上的缓存数据,读取速度相对内存缓存慢一些,但是容量更大。
    • 磁盘缓存的生命周期更长,可以在浏览器关闭后继续保留。
    • 磁盘缓存主要用于存储那些可能在将来的请求中重复使用的资源,如静态图片、脚本、样式表等。

浏览器缓存的工作原理涉及到两个重要的概念:强缓存和协商缓存

  1. 强缓存
    • 当资源在缓存有效期内时,浏览器会直接从缓存中读取,不会向服务器发送请求
    • 强缓存由 HTTP 响应头中的 Cache-Control 或 Expires 字段控制。都是表示资源的缓存有效时间。
    • Expires 是 HTTP 1.0 的规范,值是一个 GMT 格式的时间点字符串。缺点是失效时间是一个绝对时间,服务器时间与客户端时间偏差较大时会导致缓存混乱。
    • Cache-Control 是 HTTP 1.1 的规范,一般常用该字段的 max-age 值来进行判断,它是一个相对时间。
    • 常见的应用场景有静态资源缓存,如 CSS、JavaScript、图片等,可以设置较长的缓存时间。
  2. 协商缓存
    • 协商缓存是由服务器来确定缓存资源是否可用,协商缓存会向服务器发送请求,询问资源是否有更新。
    • 协商缓存由 HTTP 响应头中的 Last-Modified/If-Modified-Since 或 ETag/If-None-Match 字段控制。
    • 服务器根据资源的最后修改时间或内容生成的唯一标识(ETag)来判断资源是否有更新。
    • 如果资源没有更新,服务器会返回 304 状态码,告诉浏览器可以直接从缓存中读取。
    • 常见的应用场景有动态内容缓存,如新闻、博客文章等,以及 API 响应缓存。

在以上提到的这些缓存控制标签中,优先级:Cache-Control > Expires > ETag > Last-Modified

浏览器在处理缓存时,会优先执行强缓存策略,如果强缓存失效,则执行协商缓存策略。通过合理设置 HTTP 缓存头部,可以有效利用浏览器缓存,减少不必要的网络传输,提升 Web 应用的性能。

这里想多聊一点关于 stale-while-revalidate 和 stale-if-error。它们都是 HTTP Cache-Control 响应头的扩展指令,用于控制浏览器如何处理陈旧的缓存资源,是两个略小众的指令。

1. stale-while-revalidate

语法:Cache-Control: max-age=, stale-while-revalidate=

stale-while-revalidate 指令用于指定在缓存过期后,允许客户端在异步 revalidate 的同时,继续使用陈旧的缓存资源的最长时间。

工作原理

  • 在 max-age 时间内,浏览器直接从缓存中获取资源,不会发送请求。
  • 当缓存过期后,在 stale-while-revalidate 指定的时间内,浏览器会发送请求到服务器进行revalidate,但同时会立即返回陈旧的缓存资源给客户端使用。
  • 如果 revalidate 成功(即服务器返回304 Not Modified),则缓存更新,并且下次请求会直接从缓存中获取。
  • 如果 revalidate 失败(即服务器返回 200 或其他状态码),则缓存更新为新的响应内容,并且下次请求会直接从缓存中获取新内容。

使用场景

  • 适用于更新不太频繁,但又希望用户总是能看到最新内容的资源,如 CSS、JavaScript 等。
  • 提高了用户体验,避免因等待revalidate而延迟页面呈现。

示例:Cache-Control: max-age=600, stale-while-revalidate=30
说明:资源可以在 600 秒内直接从缓存中获取,在接下来的30秒内,虽然缓存已过期,但浏览器仍可以显示陈旧的缓存资源,同时在后台进行异步revalidate。

2. stale-if-error

语法:Cache-Control: max-age=, stale-if-error=

stale-if-error 指令用于指定在发生错误(如网络错误、服务器错误等)时,允许客户端使用陈旧的缓存资源的最长时间。

工作原理:

  • 在 max-age 时间内,浏览器直接从缓存中获取资源,不会发送请求。
  • 当缓存过期后,浏览器会发送请求到服务器获取最新资源。
  • 如果请求过程中发生错误,并且在 stale-if-error 指定的时间内,浏览器会返回陈旧的缓存资源给客户端使用。
  • 如果请求成功,则缓存更新,并且下次请求会直接从缓存中获取。

使用场景:

  • 适用于更新频率较高,但又希望在请求出错时能显示旧内容,而不是错误页面的资源,如用户生成的内容、新闻文章等。
  • 提高了用户体验,避免因请求错误而显示错误页面。

示例:Cache-Control: max-age=600, stale-if-error=1200
说明:资源可以在 600 秒内直接从缓存中获取,在接下来的 1200 秒内,如果请求发生错误,浏览器仍可以显示陈旧的缓存资源。

这两个指令可以单独使用,也可以组合使用,以实现更灵活的缓存控制策略。它们的目的都是在一定条件下允许使用过期的缓存,以提高性能和用户体验,同时还能保证一定的数据更新。

需要注意的是,这两个指令都是 HTTP Cache-Control 响应头的扩展,并非所有浏览器都支持。目前,Chrome、Firefox 等主流浏览器已经实现了对这两个指令的支持。在实际应用中,还需要进行充分的测试和评估,以确保缓存策略的有效性和可靠性。

并且尽管浏览器已经支持了,但是服务器也需要正确地设置响应头才能生效。

2 服务器缓存

服务器缓存是指将数据临时存储在服务器的内存或磁盘上,以便后续的请求可以直接从缓存中获取数据,而不必每次都重新生成或计算数据。服务器缓存的目的是提高服务器的响应速度,减少数据处理的开销,从而提升整个系统的性能和吞吐量。

服务器缓存可以分为多个层次和类型,包括:

1.Web 服务器缓存:在 Web 服务器上配置的缓存机制,如:

  • Nginx 的 FastCGI 缓存、Proxy 缓存等。
  • Apache 的 mod_cache 模块。
  1. 应用层缓存:在应用程序中实现的缓存机制,通常使用内存缓存技术,如:
    • 对象缓存:将频繁访问的数据对象缓存在内存中,如 Java 的 Guava Cache 等。
    • 查询缓存:将数据库查询的结果缓存起来,下次相同的查询可以直接从缓存中获取,如 Hibernate Second Level Cache。
    • 页面缓存(Page Caching):将动态生成的网页内容缓存起来,下次请求可以直接返回缓存的页面。
  2. 数据库缓存:在数据库系统中实现的缓存机制,如 MySQL Query Cache
  3. 分布式缓存:将数据缓存在独立的分布式缓存服务器上,供多个应用服务器共享使用,如常用的 Redis。

这些服务器缓存的类型可以独立使用,也可以组合使用,形成多级缓存架构。不同类型的服务器缓存在系统架构中的位置不同,缓存的数据类型和粒度也不同,但它们的共同目标都是提高服务器的性能,加快数据访问速度。

在实际应用中,需要根据具体的业务场景和性能瓶颈,选择适当的服务器缓存策略。这包括合理设计缓存的粒度、缓存的过期策略、缓存的更新机制、缓存的容量规划等。同时也要注意缓存的一致性问题,确保缓存的数据与原始数据源保持同步,避免出现脏读或数据不一致的问题。

服务器缓存是提高系统性能的重要手段之一。合理利用服务器缓存,可以显著减少数据处理的开销,提高服务器的响应速度,从而提升整个系统的吞吐量和并发处理能力。但同时也要权衡缓存的成本和收益,避免过度使用缓存而带来的内存开销和维护成本。

3 缓存实现策略或模式

从应用程序角度来看,缓存的实现模式主要涉及如何在应用程序中使用和集成缓存,以提高数据访问的效率和性能。

常用的缓存模式有以下几种:

  1. 旁路缓存(Cache Aside)
    • 应用程序先查询缓存,如果缓存中有数据,则直接返回。
    • 如果缓存中没有数据,则从数据源(如数据库)查询,并将查询结果存入缓存,然后返回。
    • 更新数据时,先更新数据源,然后再删除缓存,保证数据一致性。
    • 优点:简单易懂,应用程序可以控制缓存的生命周期。
    • 缺点:可能出现缓存和数据源不一致的情况,需要合理设计缓存的过期策略和并发策略。
  2. 读写穿透(Read/Write Through)
    • 应用程序只与缓存交互,不直接访问数据源。
    • 缓存服务负责与数据源交互,并将数据在缓存和数据源之间同步。
    • 读取数据时,缓存服务先查询缓存,如果缓存中没有数据,则从数据源查询,并将结果存入缓存,然后返回。
    • 更新数据时,缓存服务先更新缓存,然后再更新数据源,保证数据一致性。
    • 优点:应用程序无需关心缓存和数据源的同步,缓存服务保证了数据一致性。
    • 缺点:缓存服务需要实现与数据源的交互,增加了复杂性;写操作的性能可能较低,因为需要同时更新缓存和数据源。
  3. 异步写入(Write Behind)
    • 应用程序只与缓存交互,不直接访问数据源。应用程序更新缓存,缓存服务在后台异步地将数据更新到数据源。
    • 写入数据时,只更新缓存,并将更新操作加入队列。
    • 异步线程或进程从队列中取出更新操作,并批量写入数据源。
    • 优点:写入操作的性能很高,因为只需要更新缓存;数据源的写入可以批量进行,提高效率。
    • 缺点:缓存和数据源之间可能存在一定的延迟,需要合理设计队列的大小和刷新策略;如果缓存服务崩溃,可能导致数据丢失,因此需要着重考虑缓存服务的可靠性
  4. 预刷新(Refresh Ahead)
    • 定期或在特定条件下,异步地从数据源加载数据到缓存中。
    • 可以通过定时任务、事件触发或者智能预测等方式来触发预刷新操作。
    • 优点:避免了缓存 miss 导致的性能下降,提高了读取操作的响应速度。
    • 缺点:需要额外的计算资源和存储空间来执行预刷新操作;如果预刷新的数据无法准确预测,可能会浪费资源。

在业务场景中我们往往不局限于只使用某一种策略,可能会是使用以上多种模式,,根据不同的数据特点和访问模式,采用不同的策略。例如,对于读多写少的数据,可以使用「旁路缓存」或「读写穿透」策略;对于写多读少的数据,可以使用「异步写入」策略。

计算机领域有个名言警句:

There are only two hard problems in Computer Science: cache invalidation, and naming things.(计算机领域只有有两大难题,「让缓存失效」和「给东西命名」)

接下来我们聊一下缓存过期策略。

4 缓存过期策略

缓存过期策略是指确定缓存数据何时失效并从缓存中移除的规则。合理的缓存过期策略可以帮助控制缓存的数据鲜度,并优化缓存的空间利用率。以下是一些常见的缓存过期策略:

  1. TTL 策略
    • 定义:TTL(Time To Live)策略为每个缓存条目设置一个固定的生存时间。当数据存入缓存时,指定一个过期时间。到达过期时间后,缓存条目将被自动移除,即使它在这段时间内没有被访问过。
    • 优点:TTL 策略实现简单,易于配置,适用于对数据新鲜度有严格要求的场景。
    • 缺点:容易导致缓存抖动,即频繁的缓存失效和重新加载,可能增加系统负载。
    • 场景:TTL策略适用于那些数据变化频繁且需要确保数据新鲜度的场景。例如,实时新闻数据、股票价格、天气预报等。
  2. LRU 策略
    • 定义:LRU(Least Recently Used)策略根据使用频率来决定缓存条目的去留。当缓存空间不足时,会移除最近最少使用的条目,以腾出空间存储新的数据。
    • 优点:LRU 策略能有效利用缓存空间,适用于访问模式有局部性的场景。
    • 缺点:实现较复杂,可能会增加缓存管理的开销,特别是在高并发环境下。
    • 场景:LRU 策略广泛应用于需要频繁访问的大型数据集,例如 Web 服务器的页面缓存、数据库查询缓存等。
  3. LFU 策略
    • 定义:LFU(Least Frequently Used)策略根据访问频率来决定缓存条目的去留。当缓存空间不足时,会移除访问频率最低的条目,以腾出空间存储新的数据。
    • 优点:LFU 策略适用于访问频率有明显差异的场景,能有效缓存高频访问的数据。
    • 缺点:实现复杂度较高,频繁更新访问计数可能会增加系统负载。
    • 场景:LFU 策略适用于用户访问行为具有明显模式的应用,如推荐系统、热点新闻或视频的缓存。
  4. FIFO 策略
    • 定义:FIFO(First In, First Out)策略按照条目加入缓存的顺序来决定去留。最早加入缓存的条目最先被移除,不考虑条目的使用频率或时间。
    • 优点:FIFO 策略实现简单,适用于数据访问模式较为均匀的场景。
    • 缺点:可能会导致热门数据被过早移除,不适合需要缓存热点数据的场景。
    • 场景:FIFO 策略适用于缓存数据生命周期较短且频繁更新的场景,例如某些实时数据流的缓冲。
  5. ARC 策略
    • 定义:ARC(Adaptive Replacement Cache)策略结合了 LRU 和 LFU 的优点,通过动态调整缓存策略来适应不同的访问模式。ARC 维护两个 LRU 列表,一个用于最近访问过的数据,另一个用于以前访问过的数据,并根据缓存命中情况在这两个列表之间调整权重。
    • 优点:ARC策略能够自适应调整缓存替换策略,既考虑了最近使用的频率,又考虑了访问频率,从而提高缓存命中率。
    • 缺点:实现复杂,需要维护多个列表和动态调整算法,可能增加缓存管理的开销。
    • 场景:ARC 策略适用于访问模式多变且无法预知的场景,如混合型工作负载的缓存管理。它在需要高效利用缓存空间且保持高命中率的系统中表现尤为出色,例如数据库管理系统、操作系统的页面缓存等。
  6. SLRU 策略
    • 定义:SLRU(Segmented Least Recently Used)是一种缓存替换算法,它是LRU(Least Recently Used)算法的一个变体。SLRU(Segmented LRU)策略将缓存分为两个段:一个是保护段(probation segment),另一个是优选段(protected segment)。新加入的条目首先进入保护段,如果条目在保护段中被再次访问,则移动到优选段。优选段中的条目如果再次被访问,则保持在优选段,否则会被移除。
    • 优点:SLRU 策略通过分段管理缓存条目,既能保留最近访问的数据,也能保护多次访问的数据,提高缓存命中率。
    • 缺点:实现复杂度较高,需要维护多个段和管理策略,可能增加系统开销。
    • 场景:SLRU 策略适用于需要平衡最近访问和频繁访问需求的场景,例如Web浏览器的缓存管理、文件系统的缓存管理等。

5 一些注意事项

在应用开发中使用缓存虽然可以显著提升系统性能和用户体验,但如果不当使用,也可能导致一些问题和陷阱。

  1. 缓存与数据源的一致性: 缓存数据和原始数据源之间的不一致是常见的问题之一。当数据被更新时,如果缓存没有同步更新,就会出现旧数据被重复使用的情况。
  2. 缓存穿透:缓存穿透指查询不存在的数据时,请求直接穿过缓存访问数据库,如果这种请求非常频繁,将严重影响数据库的性能。
  3. 缓存雪崩:缓存雪崩是指在缓存层面发生大规模的缓存失效,导致所有的请求都去打数据库,可能会因此使数据库压力过大而崩溃。
  4. 缓存预热:系统启动后缓存是空的,直接面对大流量可能会导致短时间内数据库请求量激增。
  5. 脏读问题:在分布式环境中,如果多个节点同时对缓存进行读写操作,可能会读到过期或不一致的数据。

6 小结

缓存不是解决性能问题的银弹,而是一种在适当的场景下能够显著提升系统响应速度和处理能力的工具。在实际应用中,缓存的引入需要仔细考虑其适用性、一致性问题、资源管理和安全性等多方面因素。

缓存最适合用于读操作远多于写操作的数据,以及那些数据更新不频繁、但需要快速访问的场景。然而,对于高度动态的数据,缓存可能不仅无法提供预期的性能提升,反而因为频繁的缓存更新和失效处理增加了额外的复杂性和开销。

在使用缓存的过程中,数据一致性是引入缓存时必须面对的一个挑战。无论是在单体应用还是分布式系统中,如何保证缓存中的数据与数据库中的数据保持一致,是设计缓存策略时必须仔细考虑的问题。不恰当的缓存策略可能导致数据过时或错误,影响业务的正确性。

并且,缓存的管理和维护也是一项不可忽视的任务。正确的缓存大小、适宜的过期策略、有效的内存管理等都是确保缓存系统高效运作的关键。缓存过大可能会消耗过多的内存资源,影响系统的稳定性;缓存过小则可能无法发挥缓存的性能优势。

缓存是一种强大的优化工具,但它并不适合所有情况。只有在正确的场景下,配合合适的策略和周到的管理,才能发挥出缓存的最大效能,帮助提升应用的性能和用户体验。

从定义到落地:如何系统构建研发效能优化机制

在带团队过程中,经常会听到「搞一个机制」,[某某某机制]的场景,这种一般是出现了问题或故障之类的时候,或者为了某个特定的目标。又或者一天老板说,你搞一下研发效能优化的机制。

那,机制到底是什么,包括什么内容,构建机制有什么价值,如何构建机制,如何保持机制的有效性和合理性?想以今天的文章大概回答一下这些问题。

1 机制的定义

从比较泛的概念来看,机制是指为了实现某种目标或功能,而建立起来的一整套运作方式、管理方法和规则体系。它是由一系列相互关联、相互作用的要素和环节构成的,通过这些要素和环节的有机结合和协调运转,来保证整个系统高效、有序、可持续地运行,从而实现预期的目标或功能。

提取关键词:实现目标或功能,一整套体系,可大可小。

从管理上来看,机制通常包含以下几层含义:

  1. 体制层面:是由一系列制度、规则、流程等构成的框架,用以规范和指导组织的运作。
  2. 运作层面:是在既定的体制框架下,通过各要素之间的互动、协调和反馈,推动组织高效运转的动态过程。
  3. 方法层面:是为实现特定管理目标,在体制和运作的基础上,采取的一系列具体的管理方法、工具和技巧。
  4. 保障层面:是为维持机制的正常运行,提供必要的资源、环境和监督等支持条件。

机制强调系统性、规范性和持续性

建立科学完善的机制,有利于在组织内形成清晰的责权利关系,规范有序的工作流程,可预期的行为模式,从而提高组织效率,实现组织目标。同时,机制也强调动态优化,需要在实践中不断评估改进,以适应内外部环境的变化。

2 机制的价值

机制的价值在机制的定义中做了说明,其价值就是为了实现某种目标或功能,其价值大小和机制本身强相关联。

以项目研发管理机制来看,其定义是指在项目的研发过程中,为了提高研发效率、控制研发成本和确保项目质量,所制定的一系列管理规范和方法。其价值在于提高研发效率、控制研发成本和确保项目质量,更细一点,价值在机制的落地文档中有明确说明。

3 如何构建机制

构建一个完整的机制是一项系统工程,从大来说需要全面考虑组织的战略目标、业务规模和特点、资源条件等因素,从小来说需要考虑具体的问题,目标,条件限制等等。

一个大的管理机制的构建大概会是如下的步骤,小的机制也可按此逻辑,但过程中的相关人员等都可缩小范围:

  1. 确定问题、目标或需求:在构建管理机制的过程中,明确问题和目标是首要步骤。这一步骤要求明确机制建设的主要目的和目标,如提高工作效率、增强员工激励、防范潜在风险等。这些目标应与组织的整体战略紧密相连,确保机制的设计能够支持组织的长远发展。接下来的需求分析阶段则涉及到对组织内外部需求的全面分析,这包括理解员工的期望、管理层的要求、合作伙伴的互动方式以及环境的变化。这一阶段的目的是确保新机制能够解决实际问题并满足不同利益相关者的需求。

  2. 设计机制框架:在制定原则环节,需要依据组织的文化和战略目标来设定机制设计的基本原则和标准,确保机制既符合组织的核心价值观,又能实现预定的战略目标。选择机制类型阶段则涉及选择合适的机制类型来应对特定的需求,例如激励机制用于提高员工动力,约束机制用于规范行为,协调机制用于优化部门间合作。草案设计则是将这些原则和类型综合起来,形成一个初步的机制设计草案,这一草案将详细描述机制的具体内容和操作方式。

  3. 征求反馈与优化:在内部沟通阶段,将草案在组织内部进行广泛讨论,这通常涉及不同层级的员工和管理者,以确保机制的设计能得到广泛的支持和理解。通过收集反馈,机构可以利用会议、问卷等方式广泛收集员工、管理层甚至是客户的反馈意见。这些反馈将在修改优化阶段被用来调整和优化机制的设计,以确保其最终的实用性和有效性。

  4. 制定实施计划:在这一阶段,组织需要制定详细步骤,包括机制实施的时间表、具体步骤和责任人。这有助于确保实施过程的有序进行。同时,准备资源环节要确保所有必要的资源都已到位,例如技术支持和培训材料等。此外,风险管理则要求预见并计划应对可能的挑战和风险,确保机制能够顺利实施。

  5. 执行与监控:这一阶段的关键在于正式实施,按照既定计划开始执行机制,并进行必要的员工培训和指导。监控执行阶段要持续跟踪机制的实施效果,监控包括员工接受程度和机制的运行状态。在此基础上,数据收集对操作数据和反馈信息的收集是必不可少的,这些数据将用于后续的评估和调整。

  6. 评估与持续改进效果评估是通过定期的机制效果评估来检查是否达到了预定的目标。这一阶段的重点是根据评估结果对机制进行必要的调整,以实现持续改进。组织应该建立一种机制,使得每一次评估都能成为未来改进的基础,确保机制始终能够适应组织发展的需求和外部环境的变化。通过这种循环反馈的方式,组织可以持续优化管理机制,从而持续提升组织的整体表现和效率。

总的来说,就是明确目标和需求、设定原则和方案,征求意见,试点运行,完善优化,全面实施,评估改进。

以下以构建研发效能优化机制为例来看下如何落地。

4 构建研发效能优化机制

4.1 确定问题、目标或需求

在构建研发效能优化机制时,首先需要明确当前研发效能存在的主要问题,例如:

  1. 研发交付质量不高,缺陷率居高不下
  2. 研发进度频繁延误,影响产品上市时间
  3. 研发资源利用率低,存在大量低效无谓的工作
  4. 缺乏客观的研发效能度量指标和手段
  5. 团队士气低落,人员流失率高

在问题分析的基础上,结合公司的战略目标,确定研发效能优化的目标,比如:

  1. 提高产品质量,将严重缺陷率降低30%
  2. 缩短产品研发周期,平均交付时间缩短20%
  3. 提高人均产出,研发资源利用率提升15%
  4. 建立完善的研发效能度量体系,实现全流程数字化管理
  5. 提升团队凝聚力和工作热情,人员流失率降低10%

同时,需要充分理解各利益相关方的需求和期望:

  1. 高层管理者关注公司整体研发效率和产品竞争力
  2. 业务部门关注产品能否快速满足客户需求
  3. 研发人员关注个人成长和技术挑战
  4. 客户关注产品质量和使用体验
  5. 竞争对手关注公司的技术实力和创新能力

只有在全面了解问题,明确目标,洞察需求的基础上,才能设计出切实有效的优化机制。

4.2 设计机制框架

根据 4.1 中确定的目标和需求,设计研发效能优化机制的总体框架。机制应该围绕以下几个方面展开:

  1. 度量体系:建立科学合理的研发效能评估指标,包括质量指标(如缺陷率,测试通过率),速度指标(如需求交付周期,缺陷修复时间),效率指标(如需求吞吐量,代码复用率),以及满意度指标(如客户满意度,员工敬业度)等。

  2. 组织结构:调整组织架构,成立专门的效能优化小组。明确各级研发主管在效能管理中的职责,将效能目标纳入绩效考核。建立高管领导下的跨部门协调机制。

  3. 流程优化:对现有的研发流程进行梳理和优化,包括需求管理,设计评审,代码开发,测试验证,发布部署等各个环节。引入成熟的敏捷开发、精益开发等方法。

  4. 工具支撑:引进或自研效能管理工具,实现需求、任务、缺陷、代码等的全流程跟踪管理和数据分析。提供自动化测试、持续集成等工程化手段。

  5. 文化建设:倡导以结果和价值为导向的工程师文化,鼓励创新和持续改进。加强技术培训和经验分享,帮助员工提升能力。营造开放透明、相互信任的团队氛围。

以上五个方面构成了研发效能优化机制的主要框架,后续需要进一步细化每个方面的具体内容,形成一套科学、系统、可操作的方案。

4.3 征求反馈与优化

在设计出研发效能优化机制的初步框架后,需要广泛征求相关利益方的意见和反馈,包括:

  1. 研发人员: 作为机制实施的主体,研发人员的意见至关重要。通过问卷调查、座谈会等方式,了解他们对指标体系的看法,对流程优化的建议,以及可能遇到的困难和挑战。

  2. 研发管理层: 与研发管理层沟通机制设计的思路和细节,获取他们基于管理实践的反馈和改进建议,确保机制在管理层得到足够重视和支持。

  3. 相关部门: 与产品、测试、运维等部门沟通,了解机制实施对其工作的影响,以及他们对机制的期望和建议。

  4. 外部专家: 寻求外部专家如管理咨询、敏捷教练等的专业意见,借鉴其他企业的优秀实践经验。

在广泛收集反馈的基础上,对机制方案进行系统的优化和改进,使其更加切合组织的实际情况。优化的内容可能包括但不限于:

  1. 调整指标体系,选择更加关键和可度量的指标
  2. 简化优化流程,去除不必要的环节,提高灵活性
  3. 完善配套的激励和考核措施,调动研发人员的积极性
  4. 加强机制实施的过程管理和风险防范

反馈和优化是一个循环迭代的过程,可能需要经过多轮才能最终确定一个相对成熟和可执行的机制方案。

4.4 制定实施计划

在机制方案优化成型后,需要制定详细的实施计划,包括:

  1. 实施步骤: 将机制的实施分解为若干个步骤和阶段(如先试点再推广),明确每个步骤的目标、内容和时间节点。
  2. 责任分工: 明确各个步骤的责任人和参与人,划分具体的工作任务。
  3. 资源准备: 确定实施机制所需的人力、财力、工具等资源,提前进行准备和调配。
  4. 宣传培训: 制定机制实施的宣传方案,让所有相关人员知悉机制的内容和要求。针对关键岗位人员开展必要的培训。
  5. 应急预案: 梳理机制实施可能遇到的风险和问题,制定相应的应对措施和处理流程。

一个详细的实施计划能够指导机制的落地执行,确保按既定的方向和步骤稳步推进,降低实施过程中的混乱和风险。

4.5 执行与监控

按照实施计划,正式启动研发效能优化机制,主要做好以下几点:

  1. 各部门和团队根据流程规范开展具体工作,形成常态化机制。
  2. 严格执行指标度量,定期收集和分析相关数据。
  3. 通过会议、邮件、看板等形式,持续跟踪和传递机制运行的关键信息。
  4. 收集研发人员和相关部门在执行过程中的反馈,及时协调和处理遇到的问题。
  5. 对机制执行过程进行抽查和巡检,对重点环节进行督导,确保执行到位。

4.6 评估与持续改进

  1. 建立评估机制: 制定机制实施成效的评估办法,明确评估指标、周期、方式和责任人。评估指标应该聚焦机制的预期目标,如研发交付及时率,缺陷率,需求响应时间等。
  2. 定期开展评估: 按计划定期开展评估,全面审视机制执行的情况和效果。可采用定量与定性分析相结合的方式,深入剖析机制运行中的问题和不足。
  3. 评估结果应用: 将评估结果形成正式的报告或总结,作为后续优化和完善的重要输入。针对暴露出的问题,及时制定整改方案,落实到责任人。
  4. 持续优化改进: 研发效能优化是一个长期的、动态的过程。要以开放的心态接纳各方的反馈,根据实际效果和环境变化,对机制进行持续的改进和调整。可借鉴业界的最佳实践,定期进行对标学习。
  5. 形成优化闭环: 将优化措施落实到位,形成闭环管理。将成功的经验固化到机制中,并在组织内推广。长期坚持,追求卓越,构建起一套行之有效、持续进化的研发效能优化长效机制。

只有通过持之以恒的评估优化及持续改进,研发效能优化机制才能真正发挥作用,帮助组织不断提升研发效率和质量,增强市场竞争力。同时,这也是一个不断学习和改进的过程,需要组织上下的共同努力和长期坚持。

5 小结

构建机制是一项系统工程,需要从全局出发,综合考虑组织的战略目标、现实问题、资源条件等因素。总体而言,构建过程可分为六个主要步骤:确定问题和目标、设计机制框架、征求反馈与优化、制定实施计划、执行与监控、评估与持续改进。每个步骤都环环相扣,缺一不可。

以研发效能优化机制为例。

在其设计过程中,需要从度量体系、组织结构、流程优化、工具支撑、文化建设、外部合作等多个维度入手,形成一套科学、系统、可操作的方案。方案的制定需要广泛听取各方意见,不断迭代优化,以确保其能够真正解决问题,满足各利益相关方的需求。在实施过程中,更需要全员参与,上下协同,在执行中不断监控,及时发现和解决问题。

研发效能优化不是一蹴而就的,而是一个持续改进的过程。只有建立常态化的评估优化机制,持之以恒地推进,才能让研发效能不断提升,让追求高质高效的理念深植于研发文化之中。这需要组织上下的共同努力和长期坚持。通过构建研发效能优化机制,组织能够不断提升产品质量,加快创新速度,提高资源利用率,增强市场竞争力,实现可持续发展。

在整个过程中,需要研发团队的负责人坚持系统思维、问题导向和以人为本。