标签归档：AIAgent

行业 Agent 实战总结：行业 Know How 如何在 AI Agent 中落地

2025 年就要过去了，今年算是「 AI Agent 元年」。各种 AI Agent 层出不穷，我们能看到的做得比较好的还是编程用的 Agent。

做垂直行业 Agent 最常见的问题是「行业 Know How 没有变成系统的一部分」。

很多团队一开始就把一堆文档丢进知识库，做个 RAG，就开始卖方案。这种产品上线后很快就会遇到三类问题：

答得像懂，但不符合行业规则：说法对，流程错；建议对，边界条件错。
能聊但不能办事：无法稳定调用工具、填表、校验、留痕。
越迭代越乱：知识变更没人负责，指标不清，线上问题复现不了。

Know How 真正落地，不仅仅是「让模型看过资料」，还要把行业经验拆成可维护的资产，进入 Agent 的检索、对话策略、工具链、评测与治理。

下面是我对于这个事情的一些思考：

1. 行业 Know How 是什么

首先它不是什么。它不等于行业知识。

大家口头说的 Know How，落到产品和工程，至少包含五类东西：

概念与术语体系
行业里的实体是什么、字段是什么意思、同义词怎么对齐、缩写怎么展开。
以室内设计为例，意式低奢风格包括哪些元素，颜色，走线是怎样的，沙发应该是怎样的沙发，摆件应该是要用什么摆件等等。
规则与约束
哪些能做、哪些不能做；阈值、条件、合规要求、审批链。
这部分经常是 Agent 出错的根源，因为它不像百科知识那样「常识化」。或者换句话说这些在大模型的数据集中没有。
标准流程与例外流程
正常路径怎么走，遇到异常如何处理，什么时候需要人工介入。
垂直行业的「例外」通常比「主流程」更重要。
可交付的结果格式
最终输出不是一段话，而是：一张符合要求的图、一份报表、一段可执行的操作、一张表单、一条工单、一段对外话术、一次系统配置变更。
Know How 里要明确「交付物长什么样」。
判断标准（质量定义）
什么叫「答对/办对」，什么叫「可用/不可用」，什么叫「风险可控」。
这决定了你的评测体系怎么做，也决定能不能规模化。

很多人只停留在把 1 做好，，但 2/3/4/5 没有结构化，导致 Agent 看起来在输出，实际上没法稳定交付。

2. 行业 Know How 落地过程中的指标

把 Know How 落进 Agent 需要实现四个更实际的指标：

更低的错误率（尤其是规则类错误）
垂直行业里，最致命的不是“答得不够全面”，而是“违规、越权、走错流程、漏掉关键校验”。
更稳定的工具执行
Agent 需要把自然语言转换成结构化参数、步骤、校验，再调用系统。
Know How 决定：填哪些字段、字段怎么校验、失败如何重试、何时升级人工。
更可控的交付质量
有的行业输出必须“可审计、可追溯、可复核”。
Know How 需要提供引用依据、版本号、规则来源、操作日志策略。
更强的组织协作效率
Know How 一旦工程化，你就能把原来靠“资深同事口口相传”的经验，变成可复用资产。
这在创业团队里很关键：人员变动不会让能力断层。

3. 按四层做落地实施

我个人倾向于把落地过程拆成四层，每层都有明确产物，方便推进、验收和迭代，并且每一层可能会对应不同的工种或团队，如果团队比较大的话：

知识层（Knowledge）：知识库、术语体系、规则库、流程库
数据层（Data）：训练数据集、测试数据集、线上回流数据
行为层（Behavior）：提示词、对话策略、工具规范、风控策略
模型层（Model）：基座模型选择、RAG 策略、LoRA/微调、路由与降级

3.1 行业 Know How 的定义与知识库的搭建

既然要做行业 Know How，那么需要清晰的知道什么是行业 Know How，以及谁可以做好行业 Know How 这件事情。

典型的负责人是业务 Owner 或资深的运营专家，如果是设计相关的行业，至少是设计总监级别的人才行。

我们做这个事情的目标是让让模型/Agent 说得准、做得对，并且可维护。

其核心产物如下：

术语体系：术语表（中英/别名/缩写）、字段含义、口径说明
规则库：可枚举的判断规则、禁区、例外条件（最好结构化）
流程库：关键业务流程（输入→判断→输出），含边界条件
知识源清单：哪些文档可信？更新频率？责任人是谁？（否则 RAG 永远不稳定）

这里建议做最小集合。

在做定义时，并不要直接全面畏开，小步快跑，灰度上线在这里也是一个好用的策略。

特别是小团队，可以让 业务Owner 主导，配一个「知识整理员」（运营/产品），快速迭代进行。

如果团队比较大，可以以「行业知识委员会」之类的组织形式（包括业务、法务/合规、客服/运营、产品等），每周进行，也是需要做增量逻辑。

当做完了后，这些所有的内容都是需要验收的，大概需要有如下的一些标准，不同的行业不同，大家可以根据自己的情况延展开来：

覆盖 Top N 高频问题/场景（比如 50/100 个）
每条规则/流程有：来源、责任人、更新时间
知识库能支撑检索：有统一 ID、可追溯引用
隔离策略，权限控制
切分粒度，过期策略

这些标准可以可直接写进项目的里程碑中。

3.2 数据集：训练数据集、测试数据集、回流数据

AI 教母李飞飞在视频里说过：数据不能说比算法重要，但至少同等重要。在垂直 Agent 场景，这句话更接近现实：用同一个基座模型，最后差距往往来自数据与评测体系。

数据一般是算法负责人或算法工程师来负责，但业务同学也需要参考其中，因为数据的好坏并不是算法同学可以解决的，以室内设计为例，一张图是否符合某个风格，算法的同学其实是不懂的，这需要业务同学的深度参与，并一起构建。

算法侧同学提供平台和数据，业务同学提供判断的能力和过程。

其核心产物如下：

训练/指令数据集（若需要）：问题-答案、对话、工具调用轨迹，让模型学会行业表达方式、结构化输出、工具调用格式、常见任务路径
测试集（强烈建议先做）：覆盖关键业务场景 + 对抗样本 + 边界条件，以可以稳定衡量上线质量
线上回流数据：用户输入、模型输出、工具结果、人工标注、失败原因标签，需要考虑用户隐私或者用户不允许使用其数据作为训练用等情况。这些数据可以让我们看到真实用户问题、失败案例、人工修正记录，用来驱动迭代
标注规范：什么算“正确/合规/有帮助/可执行”，标签定义要可复用

在小团队中，可以先做轻量的测试集，用于做版本回归；大一些的团队，可以直接先建议数据流水线：采集→脱敏→抽样→标注→入库→评测→报表。一把到位，不过也可以先人工，再脚本，再系统，再平台的逐步演化。

在做数据过程中，数据标注是一个很重要，但是又很重复的活儿。

建议在训练/测试数据中同时包含：

正确输出（结构化字段或执行计划）
关键引用依据（规则/流程/定义来自哪一条知识）
失败示例（常见错误输出长什么样）
评判标准（哪些字段错了就算失败）

对于一个创业团队来说，很难一开始就有大量行业的高质量数据，建议把精力放在：

覆盖核心任务前 20% 的高频路径
覆盖最致命的规则错误
覆盖工具调用最常失败的参数组合
每次迭代只扩一小块范围，但把这块做“闭环”

3.3 提示词

提示词是我们和 Agent 交互的核心路径，在落地时，我们需要把 Know How 变成对话策略和执行约束。

在垂直 Agent 中，我一般只保留这些内容：

角色与权限边界：能做什么、不能做什么
任务范围：支持哪些任务，不支持哪些任务
关键术语与字段定义（只放必须的，其他走检索）
输出规范：必须给结构化结果、必须给引用、必须留痕字段
追问策略：缺哪些字段必须追问；遇到冲突必须确认
风控策略：触发哪些条件必须拒绝/升级人工
工具调用原则：什么时候必须调用工具验证，什么时候允许只基于知识回答

不要在系统提示词里塞大量「知识正文」，那是 RAG 的工作。

垂直行业用户会追问「你凭什么这么做」。如果引用做不好，Agent 很难进入生产流程。

建议把引用设计成两层：

面向业务用户：引用规则标题 + 生效时间 + 一句话解释
面向审计/排障：引用片段 ID、版本号、检索得分、调用工具日志

这部分一旦做成标准件，后面迭代会轻松很多。

另外，需要考虑提示词的版本问题，需要像代码一样做版本管理（有变更记录、可回滚）。

并且，对于对话策略，需要能澄清问题、确认关键信息、分步执行、失败重试与兜底；对于工具，每个工具的输入输出 schema、超时、幂等、重试、权限等等都需要考虑。还有一些风控策略。

在小团队中，可以用一套主提示词 + 若干场景子提示词，先保证可控，工具尽量少但稳定。

业务复杂一些后，可以做策略路由，做一个策略系统，不同意图走不同策略/模型/工具链，并且可以引入灰度发布等逻辑以减少版本迭代时对用户的影响，以及做 A/B 策略。

3.4 在 LoRA 中如何体现这些 Know How

LoRA 适合学“表达方式与结构化习惯”，不适合塞“会变的事实与规则全文”。

以室内设计为例，LoRA 真正解决的是两件事：

让模型更像专业的设计师（表达方式、偏好、组合习惯、审美取向更稳定）
让模型在特定任务上更「听话」且更一致（同样的输入，输出结构、风格强度、方案套路更可控）

LoRA 是把隐性经验固化

设计的很多 know-how 不是“能查到的一条条规则”，而是：

这个风格到底应该选哪些材质更对味
什么比例的木色/灰度/金属更像“中古”
软装怎么搭不显廉价
同一个户型在预算约束下，先动哪里收益最大
同样叫“奶油风”，专业设计师认可的“奶油风”边界在哪里

这些东西虽然也可以写成原则，但很难写成完整可枚举的规则库。这类「难以规则化但能被大量样例体现」的东西，才是 LoRA 更擅长的。

以风格为例，风格可以拆成两部分：

A. 可描述、可枚举的部分（更像知识）
比如：

风格定义与边界：什么是侘寂、什么不是
常用元素清单：材料、色系、线条、灯型、家具轮廓
禁忌与冲突：哪些组合容易翻车
预算/空间约束下的硬规则：动线、安全、尺度、收纳基本原则

这部分适合放在 知识层（术语/规则/流程）+ RAG：因为它会更新、可追溯、要引用来源，改起来也方便。

B. 难以枚举、靠“整体观感”判断的部分（更像模型能力）
比如：

“像不像某个风格”的整体一致性
元素比例、轻重、层次、留白的拿捏
“高级/廉价”“松弛/用力过猛”这种审美判断
团队偏好的方案套路（同户型常用的解决方式）

这部分更适合用 LoRA：用高质量样例把“认可的风格分布”压到模型里，让它输出更稳定。

在以 LoRA 落地的过程中，风格一致性更稳，输出更贴近可交付物，方案「更会落地」

3.5 那大模型呢？

Know How 在大模型中如何体现？企业不炼模型，怎么选、选完能做什么？

大多数企业不可能自己训练大模型，现实做法是：选一个合适的基座 + 做好工程层的增强。

大模型的选择需要在成本、稳定性、延迟之间达到可用平衡，并可持续可迭代。这里的迭代不仅仅是大模型本身的迭代，还可能是切换到其它的大模型。

在当前的 AI 场景，没有所谓的客户忠诚可言，哪个好用用哪个，而且切换成本不高（API + 提示词场景）。

创业小团队需要以 RAG + 行为策略，把 80% 问题做稳，暂缓微调；把钱花在评测与回流上。只有这些成熟一些后，可以再考虑上 LoRA/微调，收益才可控。

对于大模型，我们会关心这些维度：

工具调用能力：函数调用是否稳定、参数是否可控
长上下文与检索融合：能不能在引用材料下保持一致
结构化输出稳定性：格式错一次，生产系统就要兜底
安全与合规：越权回答、敏感信息处理、拒答策略
成本与延迟：是否能在预算内跑到规模
部署形态：公有云/私有化/混合；日志与数据是否可控

我们不会只选一个模型就定终身。哪个好用用哪个，并且在工程层面实现「模型路由」：不同任务用不同模型，失败自动降级。

4. 聊下组织

在整个落地的过程中，组织是对落地结果的非常重要的保障，需要事事有人跟，件件有人负责，一般的分工如下：

业务负责人：定义任务边界与验收标准，批准规则变更
行业专家：产出规则/例外/口径，参与标注与复核
产品/运营：维护任务地图、模板、知识版本，推动回流闭环
算法/工程：RAG、工具链、评测、监控、部署与回滚

5. 小结

Know How 落地的目标不是「更像专家」，而是「更像系统」

垂直行业的 AI Agent，最终要进入的是流程、合规和交付，而不是聊天。

以上。

AI Agent 的 Skill 和行业 Workflow

在 2025 年的 10 月份，Anthropic 发布了 Claude 模型的一项重大更新的 Agent Skills，它允许用户将专业知识、脚本和资源打包成模块化的“技能文件夹”（Skill folders），让 AI 能在特定工作场景中更专业地执行任务。

如果我们在做行业 Agent、内部 Copilot、或想把 Claude Code / API 用在业务里，那就需要我们在做之前把「Skill」和「行业 Workflow」这两件事想清楚，并知道从哪里下手。

1. Skill 和行业 Workflow 的概念

1.1 Skill 是什么？

简单说：

Skill = 给模型的一份可复用「操作说明书 + 流程模板」

在 Claude 体系里，Skill 是一个带 SKILL.md 的文件夹，它告诉模型：
“在什么情况下该用我、我要完成什么任务、要按什么步骤做、输出要长什么样。”

特点有几个：

面向具体任务，不是一个抽象的「能力标签」
例如：生成符合公司品牌规范的 PPT，按照内部代码规范重构文件，按财务模板做对账报告。
本质上是文字写清楚的 SOP + 可选的脚本
主体就是 Markdown 文档，有需要时再绑上 Python 脚本去做确定性处理。
可以被模型自动发现和按需加载
模型不会一直把完整 Skill 塞在上下文里，只在命中时再读取详细内容。

它和我们平时说的「提示词」的区别在于：
提示词是一次性、散落的；Skill 是结构化、可版本化、可共享的。

1.2 行业 Workflow 是什么？

Workflow 可以理解为：

把行业中的业务流程，做成清晰的步骤编排和 IF-ELSE 逻辑。

过去这些东西已经存在于：

各种脚本、RPA、BPM 系统
系统之间的 API 调用编排
内部运维 / 运营同学脑子里和文档里的 SOP

在 Agent 语境下，我们关心的是一件事：

怎么把这些已有流程封装成「可由 Agent 触发、可观测、可审计」的工作流节点。

行业 Workflow 的关键特征：

强约束：
对输入 / 输出有严格格式要求，执行过程里有清晰的分支、回滚、告警。
强依赖业务 Know-how：
为什么要这样分支，Why 在流程里，而不是在模型参数里。
长期稳定运行：
一旦跑到生产，就不希望被大模型的「心情」影响。

2. Claude Code 的 Skill

在 Claude 的整体设计里，Skills 是一个非常核心的扩展机制。它解决了两个问题：

如何在不撑爆上下文的前提下，给模型装很多垂直能力？
如何让业务团队通过“写文档”的方式，而不是“写模型”的方式扩展能力？

2.1 一个 Skill = 一个带 SKILL.md 的文件夹

Claude 官方定义里，一个 Skill 的最小单元就是：

一个文件夹
里面一个 SKILL.md
也可以再带一些脚本、资源文件

官方给出的模板是这样的：

---
name: my-first-skill
description: 这是一个关于此 Skill 能做什么以及何时使用它的清晰描述。
---
# 我的第一个 Skill

[在这里添加您的指令，Claude 在激活此 Skill 时会遵循这些指令]

## 示例
- 用法示例 1
- 用法示例 2

几个要点：

name：唯一标识，最好跟任务直接相关。
description：非常重要，模型靠这个来判断「什么时候用你」。
正文部分：
写清楚目标、步骤、注意事项、输出格式、示例。

只要这一个 Markdown 写好了，一个可用 Skill 就成立了，不需要额外的配置文件。

2.2 具体例子：PPT Skill

官方仓库里有一个 PPTX 相关的 Skill，SKILL.md 类似下面这种结构：

YAML Frontmatter：说明 Skill 名称、用途（处理 PPTX）
正文：分章节写
- 如何解析 PPTX
- 如何修改版式
- 如何保证品牌颜色与模板统一
- 输入 / 输出约定
- 示例调用方式

Claude 的做法是：

会话启动时，只把所有 Skill 的 name + description 读一遍，放到系统级提示里。
当用户输入与某个 Skill 的描述高度匹配时，Claude 再去把这个 Skill 的完整内容加载到上下文中。

这就是文档里提到的「渐进式披露（Progressive Disclosure）」机制。

2.3 渐进式披露

这个词其实有点装，但装得有点厉害，使用这种方式的原因很直接：Token 成本和性能。

初始加载时，每个 Skill 只占用几十个 Token（元信息）。
真正用到的时候，才把 SKILL.md 的主体搬进来。
如果 Skill 还拆成多个文件，Claude 只会读当前任务需要的那部分。

结论：我们可以放心装很多 Skill，而不用太担心上下文被占满。

2.4 Skill 里可以带代码

文档里也提到，Skill 可以带 Python 脚本等可执行文件。

用途主要有两类：

做确定性计算 / 校验
- 排序、过滤、格式校验
- 比如：生成 GIF 之后检查文件大小是否符合 Slack 限制
做简单的集成调用
- 调一个内部 API
- 读取一个本地文件，然后把内容返给模型

设计上，有一条很实用的边界：

流程和策略写在 SKILL.md
需要 100% 确定性 的步骤写在脚本里

模型不负责「每次都从零写代码」，而是调用你已经写好、已经验证过的代码。

3. Skill 和 Tool / MCP 的边界

很多人会把 Skill、Tool、MCP 混在一起，这里做个简单对比方便后面聊 Workflow。

3.1 Skill：教模型「怎么做」

把我们的 SOP、套路、模板，变成模型可执行的说明书。
适合：
- 结构化写作
- 格式转换
- 合规校验
- 数据清洗 / 整理
优点：
- 写文档就能做定制
- Token 成本可控
- 容易版本化和团队共享

3.2 MCP / Tools：帮模型「去做」

MCP 解决的是：如何以统一协议，让模型调用外部系统 / 数据源 / API。
它关注的是：
- 怎么查 GitHub
- 怎么调 CI/CD
- 怎么查数据库
- 怎么发 Slack 消息

简要总结就是一句话：Skill 面向流程，MCP 面向集成。

3.3 Skill + MCP 的组合

在一个典型任务里：

MCP 负责：拿到需要的数据、执行动作
Skill 负责：拿到这些结果后怎么分析、怎么生成符合规范的输出

这其实已经非常接近我们后面要讲的「Workflow + Agent」的拆分思路。

4. 行业 Workflow：Skill 落地的载体

前面讲的是 Skill 这一颗颗能力点”，接下来要看它们怎么和行业 Workflow 结合。

4.1 Agent 是交互方式，不是业务本身

再强调一次我们之前文章中的观点：Agent 是交互方式，不是业务本身

在行业里，Agent 更适合作为：

自然语言入口
意图理解与参数提取
初步判断和分发

真正的行业壁垒在于：

我们内部沉淀的 SOP
历史案例和边缘场景处理方式
审批链路和风控规则

这些东西，应该放在：

Workflow 编排系统
规则引擎
Skill + MCP 的组合

而不是「指望一个通用 Agent 自己学出来」。

4.2 为什么不能纯 Agent？

幻觉和确定性冲突
- 行业里很多流程（财务、生产、安全）对错误零容忍。
- 1% 的错误率，对于 Demo 可以接受，对生产不行。
过程黑盒，难以审计
- Agent 的推理链路在模型内部
- 出现问题难以复盘和归责
- 很难满足合规和审计要求
成本和延迟
- 让模型去规划每个按钮、每个 if-else，是在烧算力
- 这些确定性逻辑用传统代码 / Workflow 做更合适

所以，在企业 / 行业场景里，更现实的模式是：

Workflow + Agent
Agent 做理解和决策，Workflow 做执行和兜底。

5. 「Workflow + Agent」的混合架构

把前面的点合起来，可以得到一个常见的分层结构。

5.1 顶层：意图理解与路由（Agent）

职责只有三件：

理解用户在说什么（意图识别）
把需要的参数补齐（参数提取 + 追问）
决定触发哪个 Workflow / Skill 组合（路由）

流程可以简单画成：

用户 → 自然语言
→ Agent：识别意图 + 提取参数
→ 选中对应 Workflow（或再转给某个二级 Agent）
→ Workflow 执行
→ 结果交给 Agent 格式化给用户

这一步里，Skill 可以怎么用？

把「意图分类规范」「参数提取规则」「话术模板」写成一个 Skill
在 Skill 里明确：
- 出现哪些关键词 / 条件时，对应什么意图
- 提取不到关键信息时，按怎样的模板向用户追问

5.2 中间层：RAG + 决策

有些问题不能直接映射到单个 Workflow，需要先查知识再决定走哪条路。

典型例子：

“设备报警 E03，我该怎么办？”

步骤一般是：

Agent 调用 RAG，在知识库中检索 E03 的说明和处理方案。
Skill 里定义好：
- 如何解释错误码
- 不同错误码对应的处理选项
根据检索结果和规则，决定触发：
- 远程重启流程
- 提交工单流程
- 安排现场工程师流程

这里的组合关系是：

RAG：提供上下文知识
Skill：约束「如何做决策、如何提问、如何输出」
Workflow：完成最终执行动作

5.3 底层：确定性执行（Workflow / RPA / 脚本）

这一层的唯一要求：

不要信模型，要信代码和流程编排。

包括：

API 调用链
BPM 流程
RPA 机器人
定时任务
数据库操作事务

这里非常适合做成「Skill + MCP + Workflow」的组合：

Workflow 把一串 API / RPC / 脚本串起来
MCP 把外部系统包装成标准工具
Skill 负责：
- 输入规范
- 输出规范
- 错误处理策略
- 不同状态码的解释

最后返回给 Agent 的应该是：

清晰的状态（成功 / 失败 / 部分成功）
明确的字段（JSON 等结构化结果）
标准错误码和错误信息

5.4 最后一层：结果转述（Agent）

Agent 的工作只是：

把结构化结果翻译成人能看懂的话
必要时附上详细解释和后续建议
避免「编故事」，严格按返回字段说话

在这一步也可以挂一个简单 Skill：

统一输出口吻
统一敏感信息处理方式
统一错误提示文案

6. Skill 在行业 Workflow 里的落地方式

回到文章标题里的核心问题：行业 Workflow 如何通过 Skill 落地？

可以拆成三步。

6.1 把「人做事的方式」变成 Skill

先不碰系统，先去梳理：

关键流程当前是怎么执行的？
有哪些「资深同事会说：新人容易犯错的点」？
有没有文档 / 模板 / 复盘材料？

然后做的事情是：

挑出重复度高、流程相对固定的一批任务。
每个任务建一个 Skill 文件夹，写 SKILL.md：
- 场景描述：什么时候应该用这个 Skill？
- 输入要求：有哪些字段，格式是什么？
- 处理步骤：拆成 1、2、3…
- 输出规范：JSON 字段 + 人类可读的模板
- 示例：2~3 个高频真实例子

第一轮不用追求覆盖所有流程，重点是把写 Skill 这件事本身跑顺。

6.2 把「系统做事的方式」变成 Workflow + MCP

接下来梳理现有系统资产：

哪些已有 API / 脚本 / RPA 可以直接复用？
哪些流程现在是人工填表 + 审批 + 抄数？
哪些操作有合规 / 风控要求，必须严格走系统？

然后做：

把可复用的系统能力包装成 MCP / 内部 API。
用我们熟悉的方式编排成 Workflow（BPM / 编排平台 / 自写 Orchestrator）。
明确每个 Workflow 的：
- 输入结构
- 输出结构
- 错误码定义
- 审计日志

这一步的原则是：

尽量少改存量系统，尽量通过「外面包一层」的方式让它变成可调用的 Workflow 组件。

6.3 用 Skill 把「人」和「系统」连起来

最后一步，把 Skill 作为桥梁：

上游：Agent 与用户对话
中游：Skill 指导 Agent 该怎么理解、怎么提问、怎么路由
下游：Workflow/MCP 真正执行动作

一个典型链路会变成：

用户输入需求
Agent 用「意图 Skill」判断任务类型
分发给对应领域 Agent
领域 Agent 读取对应 Skill：
- 补齐参数
- 调用 RAG 查规则
- 决定调用哪个 Workflow
Workflow 执行，通过 MCP / API 触达系统
返回结果由领域 Agent 按「输出 Skill」转成年类可读结果
Agent 统一封装成对用户的话术

所有「经验」、「SOP」、「注意事项」，尽量沉淀在 Skill 里：

方便以后版本升级
方便新业务线复用
方便做变更审计（Skill 本身可以版本控制）

7. 实施过程中的几个注意点

7.1 先把 Skill 写“够细”，再考虑自动化程度

很多团队上来就想着「全自动」，结果 Agent 兜不住，Workflow 无法覆盖异常，最后完全不敢放生产。

相对稳妥的节奏是：

用 Skill 把流程写细写透，先跑一段时间「人机协同」：
- Agent 给出建议
- 人来点确认 / 修改
统计哪些环节几乎没有人工干预
把这些环节下沉成 Workflow，逐步提高自动化比例

这样做有一个副作用：整个流程的「隐性知识」会被 Skill 强制写出来，对组织本身也是一种梳理。

7.2 旧系统是企业的「来时路」

很多看起来陈旧的：

定时脚本
报文接口
Excel 宏

从「Workflow + Agent」的角度看都是资产。
Skill 负责解释「什么时候、为什么、怎么用它」，MCP / Workflow 负责「怎么安全调用它」。

相比完全重构，一个实用的策略是：

给旧系统加一个 AI 适配层，而不是要求旧系统「变成 AI 原生」。

7.3 结构化数据回流

Agent 与用户的对话里，有大量可以反哺业务的信息：

用户真实需求
高频异常
流程里的瓶颈点
新出现的边缘场景

建议在设计时就准备好：

把关键字段结构化写入日志 / 数据库
定期用这些数据更新：
- Skill 内容
- RAG 知识库
- 流程设计（Workflow）

不要只留下聊天记录，要留下可分析的行为数据。

8. 小结

把前面的内容合在一起，其实可以简化为三条：

Skill 把「怎么做事」固化下来
- 它是 Agent 的“操作手册”
- 它让流程可以被描述、复用、版本化
Workflow 把「谁来做、何时做、按什么顺序做」编排起来
- 它对接真实系统和资源
- 它保证执行的确定性和审计能力
Agent 把「人类模糊的需求」翻译成「可以被 Skill + Workflow 执行的指令」
- 它是交互层和调度层
- 它不是行业壁垒本身

在这个结构下，“降本增效”不再是一个抽象口号，而是一个比较直观的路径：

过去那些无法自动化的非结构化需求（邮件、沟通、模糊指令），
通过 Agent + Skill 变成可结构化的任务描述，
再通过 Workflow + MCP 交给稳定的代码和系统去执行。

从研发团队视角看，这套东西真正改变的是工作方式：

从「写提示」变成「设计并维护一套可执行流程」；
从「做一次性 Demo」变成「搭一套能长期演进的智能基础设施」。

如果你正在做行业 Agent，或者准备在内部推一个 AI 助手，可以先从一件事开始：

挑一个你们团队最常做、步骤最清晰、但最浪费时间的任务，把它完整写成一个 Skill，再把现有系统封装成一个 Workflow。
这两个拼起来，基本就是你们自己的第一个「行业 Workflow + Agent」原型。

以上。

关于行业 Agent 的思考：「行业 Workflow + Agent」的混合模式

过去一年，AI Agent 从狂热逐渐回归理性。在企业级应用和垂直行业落地中，我们看到了一个趋势：在行业中，纯粹依靠 Agent 自主决策的构想，正在被「Workflow + Agent」的混合模式所取代。

对于我们一线的同学来说，最重要的是要去解决实际问题。

当前我们能看到的行业 Agent 大多数实际落地的逻辑是：行业 Agent 的壁垒在于行业 Know-how，而落地的最佳路径是利用 Agent 做交互与分发，利用 Workflow 做执行与兜底。

1. 行业 Agent 是什么

很多人把 Agent 想象成一个全能的「超级员工」，指望给它一个模糊的目标（比如“帮我提升下季度销售额”），它就能自动拆解任务、调用工具、完成工作。在通用领域或简单场景下（如订机票、写周报），这或许可行。但在垂直行业（金融、制造、医疗、物流等），这种纯 Agent 模式目前是行不通的。

1.1 Agent 是交互方式，不是业务本身

Agent 在行业应用中的本质，是入口和交互。

它改变了人与系统的互动方式。以前我们需要点击菜单、填写表单、通过 SQL 查询数据库；现在我们可以通过自然语言表达意图。Agent 的核心价值在于它能“听懂”用户的意图，并将其转化为系统能理解的指令。

1.2. 真正的壁垒是行业 Know-how

大模型本身是通用的。GPT-5 或者是 Claude 4.5，它们具备的是通用的逻辑推理能力和语言能力，但它们不懂你们公司的复杂的审批流程，不懂某个特定设备的维修手册，也不懂行业内潜规则式的业务逻辑。

行业 Agent 的「行业」二字，才是重点。

什么是 Know-how？ 是我们沉淀了十年的 SOP，是数据库里积累的边缘案例，是针对特定业务场景的异常处理机制。
Agent 的角色： 它是这些 Know-how 的「调度员」，而不是「创造者」。

如果脱离了行业 Know-how，Agent 就是一个会说话但办不成事的空壳。

2. 为什么「纯 Agent」模式在企业端走不通？

在 Demo 阶段，我们经常看到这样的演示：用户说一句话，Agent 自动规划了五个步骤，调用了三个 API，完美解决了问题。

但在生产环境中，这种全自动的「纯 Agent」模式面临三个无法回避的死结：

2.1 幻觉与确定性的冲突

企业级应用，尤其是涉及到资金、生产安全、合规的场景，稳定压倒一切。大模型的本质是概率预测，这意味着它永远存在「幻觉」的可能性。哪怕准确率做到 99%，那剩下的 1% 的不可控对于企业核心流程来说也是灾难。

你无法向审计部门解释，为什么系统批准了一笔违规报销，仅仅因为 Agent 觉得「这看起来没问题」。

2.2 流程的黑盒化

纯 Agent 模式下，决策过程往往隐藏在模型的推理链中。当出现问题时，很难复盘和追责。企业需要的是可审计、可监控、可干预的流程。

2.3 成本与延迟

让大模型去规划每一个微小的步骤（比如“点击确认按钮”、“校验手机号格式”），是对算力的巨大浪费。这些确定性的逻辑，用传统的代码实现既快又准，用 LLM 去推理则是大炮打蚊子，且增加了响应延迟。

3. Workflow + Agent 的混合模式

既然大模型的幻觉无法根除，而传统软件的确定性又是刚需，最务实的方案就是将两者结合：Workflow + Agent。

这是一个“动静结合”的架构。

Workflow（工作流/RPA）： 负责“静”。它是骨架，是肌肉。它包含固定的业务逻辑、SOP、API 调用序列。它保证了核心流程的确定性和可靠性。
Agent（大模型）： 负责“动”。它是大脑，是神经。它负责理解非结构化的输入（自然语言），进行意图识别，然后决策应该触发哪一条 Workflow。

3.1 核心逻辑

Agent 不直接去操作底层数据库或核心系统，Agent 的输出对象是 Workflow。

用户 -> 对话 -> Agent (理解意图/参数提取) -> 触发 -> Workflow (执行/校验) -> 返回结果 -> Agent (格式化输出) -> 用户

3.2 这种模式解决了什么问题？

复用历史沉淀： 企业过去十年建设的 ERP、CRM、以及各种自动化脚本（RPA），不需要推倒重来。它们被封装成一个个 Workflow，成为 Agent 的「工具箱」。
控制风险： 所有的执行动作（写库、转账、发货）都由 Workflow 控制，Workflow 内部包含严格的校验逻辑（If-Else），这是大模型无法绕过的硬规则。
降低成本： 只有在需要理解和决策的环节才消耗 Token，大量的执行环节由低成本的代码完成。

4. 如何设计混合模式

在具体落地时，我们需要构建一个分层的架构体系。

4.1 意图理解与分发

这是系统的入口。用户输入的往往是模糊的、非结构化的自然语言。这一层的核心任务不是「解决问题」，而是「定义问题」。

意图识别： 判断用户是想「查询库存」、「发起退款」还是「投诉建议」。
参数提取： 从对话中提取执行 Workflow 所需的关键参数（如订单号、日期、金额）。如果参数缺失，Agent 需要反问用户进行补全。
路由分发： 基于意图，将任务指派给具体的 Workflow 或下一级更专业的 Agent。

关键点： 这一层需要极强的语义理解能力，通常需要配合 RAG 来理解特定领域的术语。

4.2 动态决策与 RAG

在某些复杂场景下，直接映射到 Workflow 是不够的。比如用户问：“我的设备报警代码是 E03，我该怎么办？”

这里不能直接触发一个“维修流程”，因为 Agent 首先需要知道 E03 代表什么。

RAG 的介入： Agent 调用知识库，检索 E03 对应的故障原因和处理手册。
初步决策： 基于检索到的 Know-how，Agent 判断是建议用户重启（触发“重启指引 Workflow”），还是必须派人维修（触发“工单提交 Workflow”）。

关键点： RAG 在这里不仅仅是用来回答问题的，更是用来辅助 Agent 做路由决策的。

4.3 确定性执行（Workflow / RPA）

这是系统的执行层，也是“行业 Know-how”固化最深的地方。这一层严禁幻觉。

形式： 它可以是一个 API 接口，一个 Python 脚本，或者是一个复杂的 BPM（业务流程管理）实例，甚至是一个 RPA 机器人。
逻辑： 这里面充满了 If-Else、Try-Catch 和数据库事务。
反馈： Workflow 执行完毕后，必须返回明确的状态码和结果数据（JSON 格式），而不是一段模糊的文本。

4.4 结果综合与反馈

Workflow 返回的是结构化数据（例如：{"status": "success", "order_id": "12345", "delivery_date": "2023-12-01"}）。 Agent 的最后一步工作，是将这些冷冰冰的数据，转化为符合人类阅读习惯的自然语言，反馈给用户。

5. 多级 Agent 与 RAG 的协同

在简单的场景下，一个 Agent 配合几个 Workflow 就够了。但在复杂的行业场景（如供应链管理、大型设备运维）中，我们需要更复杂的拓扑结构。

5.1 多级 Agent 架构

不要试图训练一个全知全能的上帝 Agent。应该采用“主帅-将军-士兵”的层级结构。

L1 调度 Agent（主帅）： 只负责宏观分类。例如，判断是“售前咨询”还是“售后维修”。
L2 领域 Agent（将军）： 专注于特定领域。例如，“售后 Agent” 拥有查询保修、解读故障码、预约工程师的能力。
L3 执行单元（士兵）： 具体的 Workflow 或特定的单一功能 Agent。

这种结构的好处是解耦。当售后流程发生变化时，只需要调整 L2 Agent 和对应的 Workflow，不会影响到售前部分。

5.2 RAG 的逻辑化应用

传统的 RAG 主要是为了解决“回答知识性问题”。在混合模式中，RAG 的作用被放大了。

动态 Prompt 注入： 在执行 Workflow 之前，系统可以根据当前的上下文，利用 RAG 从知识库中检索出相关的规则或注意事项，动态注入到 Agent 的 Prompt 中。
- 例子： 在处理一笔“退款”请求时，RAG 检索到“该用户是 VIP 且信用极好”，将此信息注入 Prompt，Agent 可能会选择触发“极速退款 Workflow”而不是“常规审核 Workflow”。

6. 落地实战中的思考

在实施“行业 Workflow + Agent”模式时，有几个非技术性的坑需要注意。

6.1 人机协同

在很长一段时间内，Agent 不会完全取代人，而是成为人的 Copilot 在设计 Workflow 时，必须预留人工介入的节点。当 Agent 的置信度低于某个阈值，或者 Workflow 执行遇到异常时，系统应自动升级为人工服务，并将之前的上下文完整传递给人工客服。

6.2 存量资产的价值

很多技术团队在做 AI 转型时，倾向于重构一切。这是错误的。你们公司遗留的那些看起来陈旧的 API、跑了五年的定时脚本、甚至 Excel 里的宏，都是宝贵的资产。 Agent 的落地应当是「局部改造」而非「推倒重来」。 我们要做的，是给这些老旧的系统加上一个 AI 适配层，让 Agent 能够调用它们，而不是替换它们。

6.3 结构化数据的回流

Agent 与用户的交互过程，产生了大量高质量的数据。不要让这些数据只停留在对话日志里。需要设计机制，将 Agent 收集到的信息（如用户的新需求、报错的高频词、Workflow 的执行结果）结构化地回流到业务系统中，用于优化 SOP 和微调模型。

7. 小结

行业 Agent 的未来，不是科幻电影里的全自动机器人，而是严谨的工程化实践。

我们不需要一个会写诗的 AI，我们需要的是一个能准确理解工单意图，并由后台的 Workflow 准确执行的系统。

Agent 是面子：提供极简的交互，理解复杂的意图。
Workflow 是里子：承载行业壁垒，保证执行的绝对可靠。
RAG 是底子：提供动态的上下文和知识支撑。

降本增效不是靠引入一个昂贵的大模型来实现的，而是靠大模型把过去那些难以被自动化的“非结构化需求”，转化为了可以被低成本代码执行的“结构化指令”。

这才是行业 Agent 的落地。