作者归档：admin

AI 编程时代，人与人的交流减少了是好事吗？

随着 AI 编程在团队越来越普及，猛然发现一个正在变得「习以为常」的变化：以前遇到问题，第一反应是问同事或 Google；现在第一反应是问 AI。

Anthropic 在 2025 年 8 月对内部 132 名工程师和研究员做了调研（53 次深度访谈 + Claude Code 使用数据分析），把这个变化讲得很具体：Claude 成了“第一站”。有人说自己现在提问更多了，但 80%–90% 的问题都丢给 Claude，只有剩下 Claude 解决不了的才去找同事。

交流减少，到底是不是好事？

答案很难用一句话盖棺定论，但可以把它拆开：减少的是什么交流、增加的是什么交流、谁受益、谁受损、组织会丢掉什么能力。拆开之后，我们聊聊。

1. 交流为什么会减少？

「问同事」换成「问 AI」，最核心的原因不是大家突然不爱社交，而是成本变了：

问 AI 不需要等对方空闲
不担心打断别人
不欠人情
不需要把上下文组织成「适合对人讲」的样子（很多时候我们只要把报错、代码片段、目标贴过去）
AI 还能陪你迭代：你改一句，它再改一句，来回几十轮也不尴尬

Anthropic 的访谈里，很多人把 Claude 描述成「常驻协作者」。但与此同时，他们也强调：多数工作仍要监督和验证——频繁使用，不等于完全放手。在问卷里，超过一半的人认为自己能「完全委派」的比例只有 0–20%。

交流减少，不代表工作变简单；很多交流只是从「人际通道」搬到了「人机通道」。

2. 交流减少可以带来好处

如果只说交流减少带来「效率提升」，太粗了。

更准确的说法是：很多原本不值得打扰人的问题，现在可以被即时解决，这会直接改变团队的节奏。

Anthropic 的数据里有几个信号很典型：

受访者自报：现在 Claude 参与了他们 约 59%–60% 的工作，平均带来 约 +50% 的生产力提升（相较 12 个月前是 2–3 倍增长）。
他们把生产力的来源描述为：每类任务耗时略降，但产出量显著上升。
还有一个容易被忽略的点：受访者估计 27% 的 Claude 辅助工作“本来不会做”，包括一些“nice-to-have”、探索性工作、文档测试、以及小修小补。

交流减少在这里的正面作用是：
很多「本来要去问人」的碎问题，被 AI 吃掉以后，人的协作可以更集中在真正需要对齐的地方。

在 Anthropic 的访谈里，有人说 Claude 形成了一个过滤器：例行问题交给 Claude，同事只处理更复杂、更需要组织上下文或判断力的部分。

这对很多团队来说，会带来几类直接收益：

减少同步阻塞：你不用等某个专家上线回复，很多事可以自己推进。
减少社交摩擦：不必反复确认「我现在打扰你是否合适」。
让“冷启动”更容易：对新人或跨领域的人，AI 能补齐工具链、代码风格、惯例解释。
让协作更聚焦：把人从「答疑机器人」解放出来，去做判断、方案权衡、目标对齐。

从组织角度讲，这确实是好事：同事的时间更像「稀缺资源」，而 AI 的时间不是。

3. 交流减少是有代价的

交流减少的问题在于：人与人的交流减少，减少的往往不是闲聊，而是一些「看起来低效、但在组织里非常有价值」的过程。

3.1 指导与传承会变弱（尤其对新人）

Anthropic 有个很直接的反馈：一位资深工程师说，难过的是初级员工不像以前那样常来问问题了——虽然他们确实更快得到答案、学得也更快，但连接少了。

这类“连接”不是情绪价值这么简单，它对应的是：

代码审美与工程判断的口口相传
对系统边界、坑位、历史遗留的理解
「为什么我们不这么做」的经验
出问题时应该找谁、怎么升级、什么时候停手

AI 能解释代码、给建议，但它替代不了一个组织里那些隐性的「运行规则」和「风险嗅觉」。或者我们可以称它为「潜规则」

3.2 越依赖 AI，越需要高手，但高手可能变少

Anthropic 提到一个很关键的矛盾：监督 Claude 需要技能，而过度使用 AI 又可能让技能变少。有人担心的不是自己会不会写代码，而是「监督与安全使用」的能力会不会退化。

访谈里还有个安全相关的例子很典型：Claude 提出一种「很聪明但很危险」的方案，像「非常有才但缺经验的初级工程师」会提的那种。能识别这种危险，需要经验和判断力。

当团队把大量交流（包括讨论、复盘、推演）替换为「我和 AI 私下迭代」，长期会出现一种风险：
团队表面产出更快，但「集体判断力」的增长变慢。

3.3 协作方式会变

Anthropic 的访谈呈现出分化：

约一部分人认为协作没变：会照开、方向照讨论，只是执行方式变成「你对着很多个 Claude 工作」。
也有人明显感到：自己和 Claude 的协作远多于和同事的协作。
有人喜欢这种变化，因为“不用麻烦别人”；也有人抵触，因为“更喜欢和人一起工作”。

这说明：交流减少不是单向度的，它改变的是交流的结构——从“随手问”转向“更重的对齐”。
而一旦对齐变重，团队如果没有刻意经营，很容易出现：

每个人都在本地把东西做很快，但最终合并、上线、验收时冲突变多
设计决策被“私下定稿”，缺少充分挑战
标准不一致：测试、可维护性、可观测性被忽略（尤其在产出量暴涨时）

当「实现」和「规划」都更多交给 AI，人类之间如果还沿用旧的协作节奏，很容易失配。

3.4 意义感

写代码的「手感」和「心流」正在消失，甚至影响职业满足感。
从个人体感上来说也是，已经没有心流和手感的状态了，只不停的输入提示词和等待。当然，你的脑海里还是会有一个架构图，一个方向。如果这个都没有了，那你存在和不存在已经没有意义了。

也有人发现自己真正喜欢的是「写完之后带来的结果」，而不是「写的过程」。

这会影响一个很现实的问题：当我们减少了与同事的交流，同时也减少了自己动手的比例，我们每天工作的乐趣来源会改变。如果团队不谈这个问题，人的流失会以更隐蔽的方式发生。

4. 所以，交流减少是不是好事？

看你减少的是哪一种

把「交流」粗暴地当成一个东西，会得出很混乱的结论。更可操作的拆分方式是：你减少的是下面哪一种？

4.1 如果减少的是“低价值同步”，通常是好事

比如：

解释某个报错怎么修
查一个命令怎么用
复制粘贴式的示例代码
“我现在卡住了，给我一个思路”这种轻量提示

这些问题交给 AI，整体是正收益：快、便宜、不打扰人。

4.2 如果减少的是「决策对齐」和「经验传承」，长期不是好事

比如：

为什么我们要这么设计？约束是什么？边界是什么？
这个改动会不会引入安全/合规风险？
出现事故时如何复盘、如何改流程？
新人如何在真实项目里形成判断力？
谁对什么负责？升级路径是什么？

这些不是「知识问答」，而是组织的运行方式。AI 可以参与，但不能替代团队成员之间的共识建立。

4.3 如果减少的是「互相看见」

我们会失去韧性

很多团队扛过线上事故、跨部门冲突、方向摇摆，靠的不是某个代码技巧，而是：

彼此信任
知道对方擅长什么、在意什么、底线是什么
关键时刻愿意帮、愿意兜

当日常交流下降到只剩「正式会议」，这类韧性会下降。平时看不出来，出事时就会很明显。

5. 把「人际交流」从随缘变成机制

如果我们是负责人，最重要的不是号召大家「多交流」，而是把交流做成机制，让它在 AI 加速的节奏下仍然成立。

5.1 明确：哪些事必须找人，哪些事默认找 AI

给团队一个简单的「分流规则」，避免两种极端：

极端 A：什么都问人，人被打爆
极端 B：什么都不问人，最后在合并时爆炸

可以直接定几条硬规则（按团队情况调整）：

涉及架构边界、接口契约、数据一致性、安全权限：必须找人评审/同步
影响线上、影响成本、影响合规：必须找人
只是工具用法、报错排查、脚手架生成：默认问 AI
不确定是否该找人：先写清楚问题和已尝试的路径，再找人（减少沟通成本）

5.2 给资深工程师留出“可见的指导时间”

Anthropic 的访谈里已经出现了「新人不来问了」的信号。很多团队会误判：新人不问 = 新人更强。短期可能是，长期不一定。

更稳的做法是：

每周固定一个短时段做 office hours（公开问答，不私聊）
重要模块设定 design review/ADR（哪怕轻量）
对“AI 生成的关键代码”设立更严格的 review 标准（不是反 AI，而是防止组织能力流失）

核心目标是：让“提问—讨论—形成共识”这条链继续存在，只是把低价值部分交给 AI。

5.3 把「AI 使用痕迹」纳入协作，而不是藏起来

现在很多人会私下反复与 AI 迭代，最后只给团队一个结果。协作成本反而上升，因为别人看不见过程，也不知道你为什么这么做。

我们可以要求（或鼓励）大家在 PR/设计文档里补两类信息：

关键决策的备选方案与取舍（哪怕两三条）
风险点和验证方式（你如何确认它是对的）

这会让交流更少但更高质量。

5.4 允许「必要的慢」

关键能力要刻意练

团队层面可以做这些：

对核心链路、核心组件：要求成员能解释清楚，而不是「AI 说的」
对新人：阶段性要求手写/手推一些关键部分，确保他们能监督 AI，而不是被 AI 带着跑
对事故复盘：强调人对系统的理解沉淀，而不是贴一段 AI 总结

目标不是回到过去，而是让团队保持「监督能力」。

6. 我们能做点什么

如果我是工程师，交流减少对我最直接的影响通常是两点：我变快了，但我更孤立了。要避免后者，方法也不复杂。

6.1 让 AI 解决「问题」，让人参与「判断」

我们可以默认把下面这些交给 AI：

解释陌生代码
查资料、列步骤
生成脚手架
写测试样例的初稿
重复性重构

但遇到这些场景，建议尽量把人拉进来：

需要在多个方案之间做取舍
觉得“有点不对劲但说不上来”
要改动一个并不拥有的模块
担心引入隐性风险（安全、性能、成本、可维护性）

AI 很会「给你一个能跑的答案」，但很多线上事故的起点就是“能跑”。

6.2 主动经营「被看见的贡献」

当大家都在本地和 AI 加速时，团队很容易只看到结果，看不到难度。我们需要更明确地让别人理解我们的贡献是什么，尤其在：

做的是“减少未来成本”的事（可观测性、稳定性、性能、可维护性）
修的是“papercuts”（Anthropic 也提到 Claude Code 里 8.6% 的任务属于这类小修小补）

这些工作如果不被看见，组织很容易把它们当作「AI 随手做的」，从而压缩这类投入，最后反噬效率。

6.3 保留与同事的「低成本连接」

不需要刻意社交，也不用强迫自己多聊。最实用的是维持低成本连接，比如：

每周一次简短同步：在做什么、接下来风险是什么、需要谁拍板
关键节点提前说：我准备这么改，谁最该看一眼
把求助写成可复用的文本：背景、现象、试过什么、倾向的方案

这样不会回到「到处问人」，但也不会变成“「独自和 AI 闭门造车」。

7. 小结

交流减少本身不是问题，但当交流减少以失去组织能力时这会是一个问题，而且还是一个大的问题。

「人与人的交流减少」这件事，短期几乎一定会发生，因为它符合成本与效率逻辑。Anthropic 的内部研究把这种变化讲得很直白：AI 正在成为第一入口，很多例行沟通会被替代，协作结构会重排。

真正需要在意的是：

我们减少的是不是那些本来就该被自动化吞掉的交流
我们有没有保留决策对齐、经验传承、风险评审这些「组织能力」的通道
当每个人都能更快产出时，我们的团队是否还能形成一致的标准与判断

如果这些做到了，交流少一点通常是好事：更少打扰、更少等待、更高产出。
如果这些没做到，交流少一点会变成隐性负债：新人长得快但根不稳，系统跑得快但风险更高，团队看起来忙但共识更薄。

参考资料

How AI Is Transforming Work at Anthropic

以上。

AI Agent 的 Skill 和行业 Workflow

在 2025 年的 10 月份，Anthropic 发布了 Claude 模型的一项重大更新的 Agent Skills，它允许用户将专业知识、脚本和资源打包成模块化的“技能文件夹”（Skill folders），让 AI 能在特定工作场景中更专业地执行任务。

如果我们在做行业 Agent、内部 Copilot、或想把 Claude Code / API 用在业务里，那就需要我们在做之前把「Skill」和「行业 Workflow」这两件事想清楚，并知道从哪里下手。

1. Skill 和行业 Workflow 的概念

1.1 Skill 是什么？

简单说：

Skill = 给模型的一份可复用「操作说明书 + 流程模板」

在 Claude 体系里，Skill 是一个带 SKILL.md 的文件夹，它告诉模型：
“在什么情况下该用我、我要完成什么任务、要按什么步骤做、输出要长什么样。”

特点有几个：

面向具体任务，不是一个抽象的「能力标签」
例如：生成符合公司品牌规范的 PPT，按照内部代码规范重构文件，按财务模板做对账报告。
本质上是文字写清楚的 SOP + 可选的脚本
主体就是 Markdown 文档，有需要时再绑上 Python 脚本去做确定性处理。
可以被模型自动发现和按需加载
模型不会一直把完整 Skill 塞在上下文里，只在命中时再读取详细内容。

它和我们平时说的「提示词」的区别在于：
提示词是一次性、散落的；Skill 是结构化、可版本化、可共享的。

1.2 行业 Workflow 是什么？

Workflow 可以理解为：

把行业中的业务流程，做成清晰的步骤编排和 IF-ELSE 逻辑。

过去这些东西已经存在于：

各种脚本、RPA、BPM 系统
系统之间的 API 调用编排
内部运维 / 运营同学脑子里和文档里的 SOP

在 Agent 语境下，我们关心的是一件事：

怎么把这些已有流程封装成「可由 Agent 触发、可观测、可审计」的工作流节点。

行业 Workflow 的关键特征：

强约束：
对输入 / 输出有严格格式要求，执行过程里有清晰的分支、回滚、告警。
强依赖业务 Know-how：
为什么要这样分支，Why 在流程里，而不是在模型参数里。
长期稳定运行：
一旦跑到生产，就不希望被大模型的「心情」影响。

2. Claude Code 的 Skill

在 Claude 的整体设计里，Skills 是一个非常核心的扩展机制。它解决了两个问题：

如何在不撑爆上下文的前提下，给模型装很多垂直能力？
如何让业务团队通过“写文档”的方式，而不是“写模型”的方式扩展能力？

2.1 一个 Skill = 一个带 SKILL.md 的文件夹

Claude 官方定义里，一个 Skill 的最小单元就是：

一个文件夹
里面一个 SKILL.md
也可以再带一些脚本、资源文件

官方给出的模板是这样的：

---
name: my-first-skill
description: 这是一个关于此 Skill 能做什么以及何时使用它的清晰描述。
---
# 我的第一个 Skill

[在这里添加您的指令，Claude 在激活此 Skill 时会遵循这些指令]

## 示例
- 用法示例 1
- 用法示例 2

几个要点：

name：唯一标识，最好跟任务直接相关。
description：非常重要，模型靠这个来判断「什么时候用你」。
正文部分：
写清楚目标、步骤、注意事项、输出格式、示例。

只要这一个 Markdown 写好了，一个可用 Skill 就成立了，不需要额外的配置文件。

2.2 具体例子：PPT Skill

官方仓库里有一个 PPTX 相关的 Skill，SKILL.md 类似下面这种结构：

YAML Frontmatter：说明 Skill 名称、用途（处理 PPTX）
正文：分章节写
- 如何解析 PPTX
- 如何修改版式
- 如何保证品牌颜色与模板统一
- 输入 / 输出约定
- 示例调用方式

Claude 的做法是：

会话启动时，只把所有 Skill 的 name + description 读一遍，放到系统级提示里。
当用户输入与某个 Skill 的描述高度匹配时，Claude 再去把这个 Skill 的完整内容加载到上下文中。

这就是文档里提到的「渐进式披露（Progressive Disclosure）」机制。

2.3 渐进式披露

这个词其实有点装，但装得有点厉害，使用这种方式的原因很直接：Token 成本和性能。

初始加载时，每个 Skill 只占用几十个 Token（元信息）。
真正用到的时候，才把 SKILL.md 的主体搬进来。
如果 Skill 还拆成多个文件，Claude 只会读当前任务需要的那部分。

结论：我们可以放心装很多 Skill，而不用太担心上下文被占满。

2.4 Skill 里可以带代码

文档里也提到，Skill 可以带 Python 脚本等可执行文件。

用途主要有两类：

做确定性计算 / 校验
- 排序、过滤、格式校验
- 比如：生成 GIF 之后检查文件大小是否符合 Slack 限制
做简单的集成调用
- 调一个内部 API
- 读取一个本地文件，然后把内容返给模型

设计上，有一条很实用的边界：

流程和策略写在 SKILL.md
需要 100% 确定性 的步骤写在脚本里

模型不负责「每次都从零写代码」，而是调用你已经写好、已经验证过的代码。

3. Skill 和 Tool / MCP 的边界

很多人会把 Skill、Tool、MCP 混在一起，这里做个简单对比方便后面聊 Workflow。

3.1 Skill：教模型「怎么做」

把我们的 SOP、套路、模板，变成模型可执行的说明书。
适合：
- 结构化写作
- 格式转换
- 合规校验
- 数据清洗 / 整理
优点：
- 写文档就能做定制
- Token 成本可控
- 容易版本化和团队共享

3.2 MCP / Tools：帮模型「去做」

MCP 解决的是：如何以统一协议，让模型调用外部系统 / 数据源 / API。
它关注的是：
- 怎么查 GitHub
- 怎么调 CI/CD
- 怎么查数据库
- 怎么发 Slack 消息

简要总结就是一句话：Skill 面向流程，MCP 面向集成。

3.3 Skill + MCP 的组合

在一个典型任务里：

MCP 负责：拿到需要的数据、执行动作
Skill 负责：拿到这些结果后怎么分析、怎么生成符合规范的输出

这其实已经非常接近我们后面要讲的「Workflow + Agent」的拆分思路。

4. 行业 Workflow：Skill 落地的载体

前面讲的是 Skill 这一颗颗能力点”，接下来要看它们怎么和行业 Workflow 结合。

4.1 Agent 是交互方式，不是业务本身

再强调一次我们之前文章中的观点：Agent 是交互方式，不是业务本身

在行业里，Agent 更适合作为：

自然语言入口
意图理解与参数提取
初步判断和分发

真正的行业壁垒在于：

我们内部沉淀的 SOP
历史案例和边缘场景处理方式
审批链路和风控规则

这些东西，应该放在：

Workflow 编排系统
规则引擎
Skill + MCP 的组合

而不是「指望一个通用 Agent 自己学出来」。

4.2 为什么不能纯 Agent？

幻觉和确定性冲突
- 行业里很多流程（财务、生产、安全）对错误零容忍。
- 1% 的错误率，对于 Demo 可以接受，对生产不行。
过程黑盒，难以审计
- Agent 的推理链路在模型内部
- 出现问题难以复盘和归责
- 很难满足合规和审计要求
成本和延迟
- 让模型去规划每个按钮、每个 if-else，是在烧算力
- 这些确定性逻辑用传统代码 / Workflow 做更合适

所以，在企业 / 行业场景里，更现实的模式是：

Workflow + Agent
Agent 做理解和决策，Workflow 做执行和兜底。

5. 「Workflow + Agent」的混合架构

把前面的点合起来，可以得到一个常见的分层结构。

5.1 顶层：意图理解与路由（Agent）

职责只有三件：

理解用户在说什么（意图识别）
把需要的参数补齐（参数提取 + 追问）
决定触发哪个 Workflow / Skill 组合（路由）

流程可以简单画成：

用户 → 自然语言
→ Agent：识别意图 + 提取参数
→ 选中对应 Workflow（或再转给某个二级 Agent）
→ Workflow 执行
→ 结果交给 Agent 格式化给用户

这一步里，Skill 可以怎么用？

把「意图分类规范」「参数提取规则」「话术模板」写成一个 Skill
在 Skill 里明确：
- 出现哪些关键词 / 条件时，对应什么意图
- 提取不到关键信息时，按怎样的模板向用户追问

5.2 中间层：RAG + 决策

有些问题不能直接映射到单个 Workflow，需要先查知识再决定走哪条路。

典型例子：

“设备报警 E03，我该怎么办？”

步骤一般是：

Agent 调用 RAG，在知识库中检索 E03 的说明和处理方案。
Skill 里定义好：
- 如何解释错误码
- 不同错误码对应的处理选项
根据检索结果和规则，决定触发：
- 远程重启流程
- 提交工单流程
- 安排现场工程师流程

这里的组合关系是：

RAG：提供上下文知识
Skill：约束「如何做决策、如何提问、如何输出」
Workflow：完成最终执行动作

5.3 底层：确定性执行（Workflow / RPA / 脚本）

这一层的唯一要求：

不要信模型，要信代码和流程编排。

包括：

API 调用链
BPM 流程
RPA 机器人
定时任务
数据库操作事务

这里非常适合做成「Skill + MCP + Workflow」的组合：

Workflow 把一串 API / RPC / 脚本串起来
MCP 把外部系统包装成标准工具
Skill 负责：
- 输入规范
- 输出规范
- 错误处理策略
- 不同状态码的解释

最后返回给 Agent 的应该是：

清晰的状态（成功 / 失败 / 部分成功）
明确的字段（JSON 等结构化结果）
标准错误码和错误信息

5.4 最后一层：结果转述（Agent）

Agent 的工作只是：

把结构化结果翻译成人能看懂的话
必要时附上详细解释和后续建议
避免「编故事」，严格按返回字段说话

在这一步也可以挂一个简单 Skill：

统一输出口吻
统一敏感信息处理方式
统一错误提示文案

6. Skill 在行业 Workflow 里的落地方式

回到文章标题里的核心问题：行业 Workflow 如何通过 Skill 落地？

可以拆成三步。

6.1 把「人做事的方式」变成 Skill

先不碰系统，先去梳理：

关键流程当前是怎么执行的？
有哪些「资深同事会说：新人容易犯错的点」？
有没有文档 / 模板 / 复盘材料？

然后做的事情是：

挑出重复度高、流程相对固定的一批任务。
每个任务建一个 Skill 文件夹，写 SKILL.md：
- 场景描述：什么时候应该用这个 Skill？
- 输入要求：有哪些字段，格式是什么？
- 处理步骤：拆成 1、2、3…
- 输出规范：JSON 字段 + 人类可读的模板
- 示例：2~3 个高频真实例子

第一轮不用追求覆盖所有流程，重点是把写 Skill 这件事本身跑顺。

6.2 把「系统做事的方式」变成 Workflow + MCP

接下来梳理现有系统资产：

哪些已有 API / 脚本 / RPA 可以直接复用？
哪些流程现在是人工填表 + 审批 + 抄数？
哪些操作有合规 / 风控要求，必须严格走系统？

然后做：

把可复用的系统能力包装成 MCP / 内部 API。
用我们熟悉的方式编排成 Workflow（BPM / 编排平台 / 自写 Orchestrator）。
明确每个 Workflow 的：
- 输入结构
- 输出结构
- 错误码定义
- 审计日志

这一步的原则是：

尽量少改存量系统，尽量通过「外面包一层」的方式让它变成可调用的 Workflow 组件。

6.3 用 Skill 把「人」和「系统」连起来

最后一步，把 Skill 作为桥梁：

上游：Agent 与用户对话
中游：Skill 指导 Agent 该怎么理解、怎么提问、怎么路由
下游：Workflow/MCP 真正执行动作

一个典型链路会变成：

用户输入需求
Agent 用「意图 Skill」判断任务类型
分发给对应领域 Agent
领域 Agent 读取对应 Skill：
- 补齐参数
- 调用 RAG 查规则
- 决定调用哪个 Workflow
Workflow 执行，通过 MCP / API 触达系统
返回结果由领域 Agent 按「输出 Skill」转成年类可读结果
Agent 统一封装成对用户的话术

所有「经验」、「SOP」、「注意事项」，尽量沉淀在 Skill 里：

方便以后版本升级
方便新业务线复用
方便做变更审计（Skill 本身可以版本控制）

7. 实施过程中的几个注意点

7.1 先把 Skill 写“够细”，再考虑自动化程度

很多团队上来就想着「全自动」，结果 Agent 兜不住，Workflow 无法覆盖异常，最后完全不敢放生产。

相对稳妥的节奏是：

用 Skill 把流程写细写透，先跑一段时间「人机协同」：
- Agent 给出建议
- 人来点确认 / 修改
统计哪些环节几乎没有人工干预
把这些环节下沉成 Workflow，逐步提高自动化比例

这样做有一个副作用：整个流程的「隐性知识」会被 Skill 强制写出来，对组织本身也是一种梳理。

7.2 旧系统是企业的「来时路」

很多看起来陈旧的：

定时脚本
报文接口
Excel 宏

从「Workflow + Agent」的角度看都是资产。
Skill 负责解释「什么时候、为什么、怎么用它」，MCP / Workflow 负责「怎么安全调用它」。

相比完全重构，一个实用的策略是：

给旧系统加一个 AI 适配层，而不是要求旧系统「变成 AI 原生」。

7.3 结构化数据回流

Agent 与用户的对话里，有大量可以反哺业务的信息：

用户真实需求
高频异常
流程里的瓶颈点
新出现的边缘场景

建议在设计时就准备好：

把关键字段结构化写入日志 / 数据库
定期用这些数据更新：
- Skill 内容
- RAG 知识库
- 流程设计（Workflow）

不要只留下聊天记录，要留下可分析的行为数据。

8. 小结

把前面的内容合在一起，其实可以简化为三条：

Skill 把「怎么做事」固化下来
- 它是 Agent 的“操作手册”
- 它让流程可以被描述、复用、版本化
Workflow 把「谁来做、何时做、按什么顺序做」编排起来
- 它对接真实系统和资源
- 它保证执行的确定性和审计能力
Agent 把「人类模糊的需求」翻译成「可以被 Skill + Workflow 执行的指令」
- 它是交互层和调度层
- 它不是行业壁垒本身

在这个结构下，“降本增效”不再是一个抽象口号，而是一个比较直观的路径：

过去那些无法自动化的非结构化需求（邮件、沟通、模糊指令），
通过 Agent + Skill 变成可结构化的任务描述，
再通过 Workflow + MCP 交给稳定的代码和系统去执行。

从研发团队视角看，这套东西真正改变的是工作方式：

从「写提示」变成「设计并维护一套可执行流程」；
从「做一次性 Demo」变成「搭一套能长期演进的智能基础设施」。

如果你正在做行业 Agent，或者准备在内部推一个 AI 助手，可以先从一件事开始：

挑一个你们团队最常做、步骤最清晰、但最浪费时间的任务，把它完整写成一个 Skill，再把现有系统封装成一个 Workflow。
这两个拼起来，基本就是你们自己的第一个「行业 Workflow + Agent」原型。

以上。

ComfyUI 的缓存架构和实现

围绕 ComfyUI，大家讨论最多的是节点、工作流、算力这些，真正去看缓存细节的人其实不多。但只要你开始在一台机器上堆多个模型、多个 LoRA、多个 workflow，缓存策略就会直接决定这几件事：

你是算力浪费，还是把显存 / 内存用在刀刃上；
容器会不会莫名其妙 OOM；
工作流切换时，是“秒级热身”还是“从头再来”。

这篇文章只做一件事：把 ComfyUI 当前的缓存架构和实现讲清楚，重点是三类策略（CLASSIC / LRU / RAM_PRESSURE）在「键怎么算、什么时候命中、什么时候过期」上的差异，以及在多模型、多 LoRA、多 workflow 场景下应该怎么选择。

1. 整体架构：两路缓存 + 四种策略

先把整体结构捋清楚。

1.1 两类缓存：outputs 和 objects

在执行一个工作流的时候，ComfyUI 维护了两类缓存：

outputs：
存中间结果和 UI 输出。命中时可以直接跳过节点执行，这部分是真正省计算的地方。
objects：
存节点对象实例（类实例），避免每次重新构造节点对象。

这两类缓存由一个统一的集合类 CacheSet 来管理。核心结构在 execution.py 中：

class CacheType(Enum):
    CLASSIC = 0
    LRU = 1
    NONE = 2
    RAM_PRESSURE = 3

class CacheSet:
    def __init__(self, cache_type=None, cache_args={}):
        if cache_type == CacheType.NONE:
            self.init_null_cache()
        elif cache_type == CacheType.RAM_PRESSURE:
            cache_ram = cache_args.get("ram", 16.0)
            self.init_ram_cache(cache_ram)
        elif cache_type == CacheType.LRU:
            cache_size = cache_args.get("lru", 0)
            self.init_lru_cache(cache_size)
        else:
            self.init_classic_cache()
        self.all = [self.outputs, self.objects]

不管是哪种策略，结构都是：

outputs：按输入签名做 key；
objects：按 (node_id, class_type) 做 key。

1.2 四种策略：CLASSIC / LRU / RAM_PRESSURE / NONE

从启动参数到缓存策略的选择，大致是这样的优先级（在 main.py 中）：

指定 --cache-lru → 用 LRU；
否则指定 --cache-ram → 用 RAM_PRESSURE；
否则指定 --cache-none → 完全关闭缓存；
都没指定 → 默认 CLASSIC。

CacheType 的定义前面已经贴了。不同策略只决定 outputs 的实现方式，而 objects 基本始终使用层级缓存 HierarchicalCache(CacheKeySetID)，后面细讲。

2. 缓存键：输入签名 + 变化指纹

缓存是否命中，首先取决于“key 算得是否合理”。ComfyUI 的设计核心是：

输出缓存（outputs）：用“输入签名 + is_changed 指纹（+ 某些情况下的 node_id）”作为 key；
对象缓存（objects）：用 (node_id, class_type) 作为 key。

2.1 输出缓存：输入签名是怎么来的

输出键的生成由 CacheKeySetInputSignature 负责，核心逻辑在 comfy_execution/caching.py:100-126：

async def get_node_signature(self, dynprompt, node_id):
    signature = []
    ancestors, order_mapping = self.get_ordered_ancestry(dynprompt, node_id)
    signature.append(await self.get_immediate_node_signature(dynprompt, node_id,
    order_mapping))
    for ancestor_id in ancestors:
        signature.append(await self.get_immediate_node_signature(dynprompt,
        ancestor_id, order_mapping))
    return to_hashable(signature)

这里有几个点：

不只看当前节点：
它会按拓扑顺序把“当前节点 + 所有祖先”的签名拼在一起。这保证了只要整个子图的拓扑和输入一致，输出就能命中缓存。
immediate 签名包含什么：
get_immediate_node_signature 会把这些信息打包进去（位置见同文件 108–126）：
- class_type：节点类型；
- is_changed 指纹（通过 fingerprint_inputs/IS_CHANGED）；
- 必要时的 node_id；
- 有序的输入值/链接。
什么时候把 node_id 也算进 key：
当节点被声明为非幂等，或者内部有 UNIQUE_ID 这种隐含输入时，会把 node_id 加进签名（见 comfy_execution/caching.py:18-23, 116），避免“看起来一样”的节点被错误复用。

最后通过 to_hashable 转成可哈希结构（tuple/frozenset 等），作为最终键值。

结果是：

输入完全相同 → key 相同 → 直接命中；
任意一个上游节点输入或参数变化 → 指纹变了 → key 不同 → 不会复用旧结果。

2.2 对象缓存：用 (node_id, class_type)

节点对象的键由 CacheKeySetID 构造（comfy_execution/caching.py:66-80），逻辑简单：

key = (node_id, class_type)。

读取时：

obj = caches.objects.get(unique_id)
if obj is None:
    obj = class_def()
    caches.objects.set(unique_id, obj)

对象缓存存在的目的只有一个：同一个 workflow 执行过程中，不要重复 new 节点实例。

3. 缓存容器：Basic / Hierarchical / LRU / RAM / Null

有了 key，还需要一个合理的「容器」和「驱逐策略」。

主要类在 comfy_execution/caching.py：

BasicCache：基础容器，提供 set_prompt / clean_unused / get / set 等；
HierarchicalCache：按“父节点 → 子图”构建层级缓存；
LRUCache：在 Basic + Hierarchical 的基础上增加代际 LRU；
RAMPressureCache：在 LRU 的基础上增加 RAM 压力驱逐；
NullCache：空实现（禁用缓存）。

核心接口统一在 BasicCache：

def clean_unused(self):
    self._clean_cache()
    self._clean_subcaches()

层级相关逻辑在 HierarchicalCache，用来支持“子图单独分区缓存”。

3.1 层级缓存：怎么定位到某个节点的分区

HierarchicalCache 通过 parent 链定位子缓存，代码在 comfy_execution/caching.py:242-269：

def _get_cache_for(self, node_id):
    parent_id = self.dynprompt.get_parent_node_id(node_id)
    ...
    for parent_id in reversed(hierarchy):
        cache = cache._get_subcache(parent_id)
        if cache is None: return None
    return cache

def get(self, node_id):
    cache = self._get_cache_for(node_id)
    if cache is None: return None
    return cache._get_immediate(node_id)

def set(self, node_id, value):
    cache = self._get_cache_for(node_id)
    assert cache is not None
    cache._set_immediate(node_id, value)

含义很直接：

根节点存在当前 cache；
某些节点生成子图，会在该节点下挂一个子 cache；
读写时，先通过 parent 链找到对应的子 cache 再读写。

clean_unused() 里除了清除不用的 key，还会删除没用到的子 cache 分区（_clean_subcaches()）。

4. 执行循环中的使用路径

缓存不是“挂在那就完事了”，它在执行循环中有比较明确的调用点。

4.1 设置 prompt + 清理

启动一次执行时（execution.py:681-685）：

is_changed_cache = IsChangedCache(prompt_id, dynamic_prompt, self.caches.outputs)
for cache in self.caches.all:
    await cache.set_prompt(dynamic_prompt, prompt.keys(), is_changed_cache)
    cache.clean_unused()

这里做了三件事：

给当前 prompt 生成一个 IsChangedCache，为 key 计算提供 is_changed 结果；
对 outputs / objects 各自执行一次 set_prompt（不同策略实现不同）；
紧接着执行 clean_unused()，做一次基于“当前 prompt 键集合”的清理。

4.2 节点执行前后：cache 命中与写入

在节点执行路径中：

执行前：优先尝试从 outputs 命中（execution.py:686-701）；
执行后：将 (ui, outputs) 作为 CacheEntry 写入 outputs（execution.py:568-571）。

为了简化，这里只看抽象行为：

命中 → 跳过计算，直接拿值；
未命中 → 正常跑一遍，将结果塞回缓存。

4.3 每个节点之后的 RAM 轮询

如果是 RAM_PRESSURE 模式，执行完每个节点都会触发一次内存检查（execution.py:720）：

self.caches.outputs.poll(ram_headroom=self.cache_args["ram"])

只有 RAMPressureCache 实现了 poll，其他模式下这个调用等同空操作。

5. CLASSIC：默认层级缓存

先看默认策略：CLASSIC。

5.1 初始化与结构

CacheSet.init_classic_cache（execution.py:97-126）：

class CacheType(Enum):
    CLASSIC = 0
    LRU = 1
    NONE = 2
    RAM_PRESSURE = 3

class CacheSet:
    def init_classic_cache(self):
        self.outputs = HierarchicalCache(CacheKeySetInputSignature)
        self.objects = HierarchicalCache(CacheKeySetID)

可以看到：

outputs 用层级缓存 + 输入签名做 key；
objects 也用层级缓存 + (node_id, class_type) 做 key；
不涉及 LRU 或 RAM 驱逐。

5.2 CLASSIC 的过期机制：完全由「当前 prompt」驱动

CLASSIC 模式不做容量和时间管理，它只有两种“失效”方式：

提示切换 / 执行前清理

clean_unused() 的核心逻辑（comfy_execution/caching.py:172-195）：

def clean_unused(self):
    self._clean_cache()
    self._clean_subcaches()

_clean_cache()：把不在“当前 prompt 键集合”的项删掉；
_clean_subcaches()：把不再需要的子缓存分区删掉。

在 execution.py:681-685 每次绑定新 prompt 时，都会执行这一步。结果是：

换了一个新的 workflow / prompt，旧 workflow 的 outputs / objects 都会被视为“未使用”，被清理掉；
CLASSIC 不会跨不同 prompt 保留旧 workflow 的缓存。

键不命中（指纹失效）

is_changed 的计算在 execution.py:48-89，当节点输入更新时，指纹会变化；CacheKeySetInputSignature 在构造键时会把这个指纹带进去（comfy_execution/caching.py:115-127）。因此只要：

参数 / 输入 / 上游节点的任一变化 → key 改变 → 旧值自然不命中。

5.3 CLASSIC 明确不会做的事

在 CLASSIC 下：

不做 LRU 容量控制：没有 max_size，也没有代际淘汰逻辑；
不做 RAM 压力驱逐：poll() 是空的，执行循环里即使调用了也什么都不干；
不做 TTL：不看时间，只看 prompt 键集合。

对应的注释已经在参考内容中点得很清楚，这里就不重复堆代码了。

5.4 在频繁切换 workflow / 模型时的表现

结合上面的机制，总结一下 CLASSIC 在多 workflow 场景下的行为：

执行新工作流时：
set_prompt + clean_unused 会直接把“不在新 prompt 键集合里”的缓存项（包括对象子缓存）全部清掉；
模型 / LoRA 变化：
即便节点 ID 不变，输入签名和 is_changed 指纹不同，也会生成新键；旧条目先不命中，随后在下一次 prompt 绑定时被清空；
回切旧 workflow：
因为在上一次切换时已经把旧 workflow 相关缓存清干净了，所以基本等于重新计算。

适用场景：

workflow 比较固定；
主要想在“一次执行当中”复用中间结果，不在意跨 prompt 的持久化。

6. LRU：代际 LRU 控制 outputs 尺寸

第二种策略是 LRU，主要解决的问题是：在允许跨 prompt 复用输出的前提下，限制缓存总量，避免无限膨胀。

6.1 初始化：只作用于 outputs

CacheSet.init_lru_cache（execution.py:127-135）：

def init_lru_cache(self, cache_size):
    self.outputs = LRUCache(CacheKeySetInputSignature, max_size=cache_size)
    self.objects = HierarchicalCache(CacheKeySetID)

注意几点：

LRU 只作用于 outputs；
objects 仍然用 HierarchicalCache，不受 LRU 驱逐；
启动方式：--cache-lru N，且 N > 0。

6.2 LRU 的代际设计

LRUCache 的骨架逻辑在 comfy_execution/caching.py:299-337：

class LRUCache(BasicCache):
    def __init__(self, key_class, max_size=100):
        self.max_size = max_size
        self.min_generation = 0
        self.generation = 0
        self.used_generation = {}
        self.children = {}

    async def set_prompt(...):
        self.generation += 1
        for node_id in node_ids:
            self._mark_used(node_id)

    def get(self, node_id):
        self._mark_used(node_id)
        return self._get_immediate(node_id)

    def _mark_used(self, node_id):
        cache_key = self.cache_key_set.get_data_key(node_id)
        if cache_key is not None:
            self.used_generation[cache_key] = self.generation

含义：

有一个全局代数 generation，每次绑定新 prompt generation += 1；
每次：
- 绑定 prompt 时，会把该 prompt 内所有节点标记为“在当前代被使用”；
- get / set 时更新条目的 used_generation[key] 为当前代。

6.3 容量驱逐：按「最老代」逐步清理

clean_unused() 的一部分逻辑在 comfy_execution/caching.py:314-323：

def clean_unused(self):
    while len(self.cache) > self.max_size and self.min_generation < self.
    generation:
        self.min_generation += 1
        to_remove = [key for key in self.cache if self.used_generation[key] < self.
        min_generation]
        for key in to_remove:
            del self.cache[key]
            del self.used_generation[key]
            if key in self.children:
                del self.children[key]
    self._clean_subcaches()

简单归纳一下：

只要 len(cache) > max_size，就逐步提升 min_generation；
每提升一代，就删除“最近使用代 < min_generation”的条目；
同步清除掉和这些 key 绑定的子缓存引用；
清理完再执行 _clean_subcaches() 做层级清扫。

6.4 子图分区与代际配合

子缓存创建时会显式标记父节点和子节点“被使用”，避免刚刚生成的子图被误删。代码在 comfy_execution/caching.py:338-349：

async def ensure_subcache_for(self, node_id, children_ids):
    await super()._ensure_subcache(node_id, children_ids)
    await self.cache_key_set.add_keys(children_ids)
    self._mark_used(node_id)
    cache_key = self.cache_key_set.get_data_key(node_id)
    self.children[cache_key] = []
    for child_id in children_ids:
        self._mark_used(child_id)
        self.children[cache_key].append(self.cache_key_set.get_data_key(child_id))
    return self

配合前面提到的层级结构，就形成了“按 workflow 子图分区 + LRU 按代际清理”的整体行为。

6.5 触发时机和行为总结

在 LRU 模式下：

每次绑定 prompt：
generation += 1，标记当前 prompt 的节点使用代为当前代；
每次 get/set：
更新条目的 used_generation 为当前代；
每次 clean_unused()：
- 当 len(cache) > max_size 时，通过提升 min_generation 清除旧代条目；
- 额外清理无用子缓存。

特点：

可以跨 prompt 保留一部分中间结果；
由 max_size 控制缓存上限；
没有 RAM 压力感知：poll() 依然不做事。

适用场景：

希望在多 workflow 之间部分复用缓存；
但机器内存有限，需要给 outputs 一个明确的容量上限；
对 RAM 细粒度控制没有强需求，或使用的是物理机 / 内存足够的环境。

7. RAM_PRESSURE：按可用内存压力驱逐

第三种策略是 RAM_PRESSURE，对应类是 RAMPressureCache。它继承自 LRUCache，但不按 max_size 做驱逐，而是：

通过 poll(ram_headroom)，在可用内存不足时按“OOM 评分”驱逐条目。

7.1 初始化：objects 仍然是层级缓存

CacheSet.init_ram_cache（execution.py:131-133）：

def init_ram_cache(self, min_headroom):
    self.outputs = RAMPressureCache(CacheKeySetInputSignature)
    self.objects = HierarchicalCache(CacheKeySetID)

注意两个点：

RAM 模式下，只有 outputs 会按 RAM 压力驱逐；
objects 不参与 RAM 驱逐，逻辑完全和 CLASSIC/LRU 下相同。

7.2 poll：可用 RAM 检测 + OOM 评分驱逐

poll 的主逻辑在 comfy_execution/caching.py:384-454：

def poll(self, ram_headroom):
    def _ram_gb():
        # 优先 cgroup v2/v1，失败回退 psutil
        ...
    if _ram_gb() > ram_headroom: return
    gc.collect()
    if _ram_gb() > ram_headroom: return
    clean_list = []
    for key, (outputs, _), in self.cache.items():
        oom_score = RAM_CACHE_OLD_WORKFLOW_OOM_MULTIPLIER ** (self.generation -
        self.used_generation[key])
        ram_usage = RAM_CACHE_DEFAULT_RAM_USAGE
        def scan_list_for_ram_usage(outputs):
            nonlocal ram_usage
            ...
        scan_list_for_ram_usage(outputs)
        oom_score *= ram_usage
        bisect.insort(clean_list, (oom_score, self.timestamps[key], key))
    while _ram_gb() < ram_headroom * RAM_CACHE_HYSTERESIS and clean_list:
        _, _, key = clean_list.pop()
        del self.cache[key]
        gc.collect()

流程拆一下：

获取可用 RAM

_ram_gb() 的实现优先读取 cgroup 的限制：
- cgroup v2：memory.max / memory.current；
- cgroup v1：memory.limit_in_bytes / memory.usage_in_bytes；
- 都失败才回退 psutil.virtual_memory().available。
这解决了容器环境下“宿主机内存大，容器实际被限制”的常见问题。
阈值和 GC
- 如果可用 RAM > ram_headroom，直接返回；
- 否则先跑一次 gc.collect()；
- 再测一次 RAM，如果还是不足，进入驱逐流程。
为每个条目计算 OOM 评分
- 初始 oom_score = RAM_CACHE_OLD_WORKFLOW_OOM_MULTIPLIER ** (generation - used_generation[key])：
  - 大概意思是：越久没被用，分数指数级放大（默认倍数为 1.3，见 comfy_execution/caching.py:365）；
- 初始 ram_usage = RAM_CACHE_DEFAULT_RAM_USAGE（0.1，见 360）；
- 递归遍历 outputs 列表：
  - CPU tensor：numel * element_size * 0.5（认为 CPU 上的 tensor 价值更高，折半）；
  - 自定义对象：如果实现了 get_ram_usage() 就加上它；
- 最后 oom_score *= ram_usage，得到综合评分。
所有条目按 (oom_score, timestamp, key) 排序，放入 clean_list。
按迟滞阈值逐个删除
- 只要 _ram_gb() < ram_headroom * RAM_CACHE_HYSTERESIS，就从 clean_list 末尾 pop 一个 key 并删除；
- 每删一个都跑一次 gc.collect()；
- 迟滞倍数 RAM_CACHE_HYSTERESIS 默认 1.1，避免“刚删完又马上触发清理”的抖动。
访问时间戳

访问时会更新 timestamps（comfy_execution/caching.py:376-382）：

   def set(self, node_id, value):
       self.timestamps[self.cache_key_set.get_data_key(node_id)] = time.time()
       super().set(node_id, value)

   def get(self, node_id):
       self.timestamps[self.cache_key_set.get_data_key(node_id)] = time.time()
       return super().get(node_id)

在 oom_score 一样时，timestamp 起到“最近访问优先保留”的作用。

7.3 提示绑定下的行为：不清理 outputs

RAM 模式下，clean_unused() 的行为与 CLASSIC 不同（见参考说明）：

RAM 模式：
clean_unused() 只做子缓存分区清理，不会删掉“当前 prompt 未使用”的 outputs 条目；
CLASSIC 模式：
clean_unused() 会同时删掉当前 prompt 未用到的 outputs 条目。

结果是：

RAM 模式可以跨多个 workflow 长时间保留中间结果；
只有在 RAM 不够时才做清退。

7.4 容器环境下需要注意的点

的 AutoDL 中，用 psutil.virtual_memory().available，在容器里看到的是宿主机内存，而不是容器的限额，导致永远“不触发回收”，最后 OOM。

适用场景：

多 workflow / 多模型 / 多 LoRA 同时存在，且希望尽可能长时间复用输出结果；
机器内存有限，但更关心“不 OOM”，而不是一个固定的 max_size；
特别适合容器环境（K8s / AutoDL 等），配合 --cache-ram <GB>。

8. 一些落地建议

最后，用一段比较直接的建议收尾。

8.1 单模型 / workflow 稳定：用 CLASSIC 即可

特点：

工作流基本不换；
主要希望避免一次执行中的重复计算（比如多次 preview）。

用默认 CLASSIC：

结构简单；
不参与复杂的跨 prompt 保留；
不需要担心 LRU 尺寸和 RAM 阈值调参。

8.2 多 workflow + 控制缓存尺寸：用 LRU

场景：

有多套 workflow，在它们之间来回切；
机器内存不是特别大，希望 outputs 不要无限膨胀；
又希望某些常用子图能被复用。

做法：

启动时加 --cache-lru N（N 先给一个相对保守的值，比如几百到几千条，看内存曲线再调）；
让 LRUCache 用代际 + max_size 帮你自动做“近期常用保留、早期冷门清理”。

8.3 多模型 / 多 LoRA / 容器环境：优先 RAM_PRESSURE

场景：

容器 / 云平台（K8s、AutoDL 等）；
有较多模型、LoRA 和 workflow 混用；
内存被容器限制，容易因爆 RAM 掉进 OOM。

做法：

启动时用 --cache-ram <GB> 配一个“希望保留的 RAM 余量”；
- 比如容器给了 32GB，就设在 16–24GB 看情况；
让 RAMPressureCache：
- 最大程度保留各个 workflow 的中间结果（包括应用 LoRA 后的模型对象等）；
- 在内存不足时，根据 OOM 评分优先清旧代、大内存条目。

注意一点：即使有容器优化，如果平台本身的 cgroup 挂得不标准，_ram_gb() 的结果还是有可能偏离实际，这一点要结合平台文档确认。

8.4 完全不想折腾：直接关缓存

如果你：

环境受限；
或者调试阶段不想被缓存影响行为理解；

可以直接用：

--cache-none
对应 CacheType.NONE，CacheSet.init_null_cache() 走 NullCache，所有 get/set 都是 no-op。

代价就是：每次执行都完全重新算一遍。

9. 小结一下

把上面的内容压缩成几句话：

ComfyUI 有两路缓存：
- outputs 存中间结果，真正用来省算力；
- objects 存节点实例，只减少 Python 对象构造开销。
键体系：
- 输出：输入签名 + is_changed 指纹（+ 条件下的 node_id）；
- 对象：**(node_id, class_type)**。
四种策略：
- CLASSIC：默认层级缓存，按当前 prompt 键集合清理，不做 LRU / RAM 驱逐；
- LRU：只对 outputs 做代际 LRU，配合 max_size 控制容量；
- RAM_PRESSURE：在 LRU 基础上加 RAM 压力驱逐，在内存不足时按 OOM 评分清理；
- NONE：彻底关掉缓存。
在多模型 / 多 workflow / 多 LoRA 场景下：
- 对象缓存 objects 始终是层级缓存，不参与 LRU / RAM 驱逐，在每次绑定 prompt 时按键集合清理；
- 模型权重 / LoRA 的真实驻留由模型管理层控制；
- 真正要关心的是：如何选择 outputs 的策略，让中间结果既能有效复用，又不会把内存打爆。

如果我们在一个复杂的工作流环境里跑 ComfyUI，建议先搞清楚自己处于哪种场景，再结合上面的策略选项，把缓存调成我们能控制的状态，而不是让它在后台「自动长草」。

以上。