行业 Agent 实战总结:行业 Know How 如何在 AI Agent 中落地

2025 年就要过去了,今年算是 「 AI Agent 元年」。各种 AI Agent 层出不穷,我们能看到的做得比较好的还是编程用的 Agent。

做垂直行业 Agent 最常见的问题是「行业 Know How 没有变成系统的一部分」。

很多团队一开始就把一堆文档丢进知识库,做个 RAG,就开始卖方案。这种产品上线后很快就会遇到三类问题:

  • 答得像懂,但不符合行业规则:说法对,流程错;建议对,边界条件错。
  • 能聊但不能办事:无法稳定调用工具、填表、校验、留痕。
  • 越迭代越乱:知识变更没人负责,指标不清,线上问题复现不了。

Know How 真正落地,不仅仅是「让模型看过资料」,还要把行业经验拆成可维护的资产,进入 Agent 的检索、对话策略、工具链、评测与治理

下面是我对于这个事情的一些思考:

1. 行业 Know How 是什么

首先它不是什么。它不等于行业知识。

大家口头说的 Know How,落到产品和工程,至少包含五类东西:

  1. 概念与术语体系
    行业里的实体是什么、字段是什么意思、同义词怎么对齐、缩写怎么展开。
    以室内设计为例,意式低奢风格包括哪些元素,颜色,走线是怎样的,沙发应该是怎样的沙发,摆件应该是要用什么摆件等等。

  2. 规则与约束
    哪些能做、哪些不能做;阈值、条件、合规要求、审批链。
    这部分经常是 Agent 出错的根源,因为它不像百科知识那样「常识化」。或者换句话说这些在大模型的数据集中没有。

  3. 标准流程与例外流程
    正常路径怎么走,遇到异常如何处理,什么时候需要人工介入。
    垂直行业的「例外」通常比「主流程」更重要。

  4. 可交付的结果格式
    最终输出不是一段话,而是:一张符合要求的图、一份报表、一段可执行的操作、一张表单、一条工单、一段对外话术、一次系统配置变更。
    Know How 里要明确「交付物长什么样」。

  5. 判断标准(质量定义)
    什么叫「答对/办对」,什么叫「可用/不可用」,什么叫「风险可控」。
    这决定了你的评测体系怎么做,也决定能不能规模化。

很多人只停留在把 1 做好,,但 2/3/4/5 没有结构化,导致 Agent 看起来在输出,实际上没法稳定交付。

2. 行业 Know How 落地过程中的指标

把 Know How 落进 Agent 需要实现四个更实际的指标:

  1. 更低的错误率(尤其是规则类错误)
    垂直行业里,最致命的不是“答得不够全面”,而是“违规、越权、走错流程、漏掉关键校验”。

  2. 更稳定的工具执行
    Agent 需要把自然语言转换成结构化参数、步骤、校验,再调用系统。
    Know How 决定:填哪些字段、字段怎么校验、失败如何重试、何时升级人工。

  3. 更可控的交付质量
    有的行业输出必须“可审计、可追溯、可复核”。
    Know How 需要提供引用依据、版本号、规则来源、操作日志策略。

  4. 更强的组织协作效率
    Know How 一旦工程化,你就能把原来靠“资深同事口口相传”的经验,变成可复用资产。
    这在创业团队里很关键:人员变动不会让能力断层。

3. 按四层做落地实施

我个人倾向于把落地过程拆成四层,每层都有明确产物,方便推进、验收和迭代,并且每一层可能会对应不同的工种或团队,如果团队比较大的话:

  1. 知识层(Knowledge):知识库、术语体系、规则库、流程库
  2. 数据层(Data):训练数据集、测试数据集、线上回流数据
  3. 行为层(Behavior):提示词、对话策略、工具规范、风控策略
  4. 模型层(Model):基座模型选择、RAG 策略、LoRA/微调、路由与降级

3.1 行业 Know How 的定义与知识库的搭建

既然要做行业 Know How,那么需要清晰的知道什么是行业 Know How,以及谁可以做好行业 Know How 这件事情。

典型的负责人是业务 Owner 或资深的运营专家,如果是设计相关的行业,至少是设计总监级别的人才行。

我们做这个事情的目标是让让模型/Agent 说得准、做得对,并且可维护。

其核心产物如下:

  1. 术语体系:术语表(中英/别名/缩写)、字段含义、口径说明
  2. 规则库:可枚举的判断规则、禁区、例外条件(最好结构化)
  3. 流程库:关键业务流程(输入→判断→输出),含边界条件
  4. 知识源清单:哪些文档可信?更新频率?责任人是谁?(否则 RAG 永远不稳定)

这里建议做最小集合。

在做定义时,并不要直接全面畏开,小步快跑,灰度上线在这里也是一个好用的策略。

特别是小团队,可以让 业务Owner 主导,配一个「知识整理员」(运营/产品),快速迭代进行。

如果团队比较大,可以以「行业知识委员会」之类的组织形式(包括业务、法务/合规、客服/运营、产品等),每周进行,也是需要做增量逻辑 。

当做完了后,这些所有的内容都是需要验收的,大概需要有如下的一些标准,不同的行业不同,大家可以根据自己的情况延展开来:

  • 覆盖 Top N 高频问题/场景(比如 50/100 个)
  • 每条规则/流程有:来源、责任人、更新时间
  • 知识库能支撑检索:有统一 ID、可追溯引用
  • 隔离策略,权限控制
  • 切分粒度,过期策略

这些标准可以可直接写进项目的里程碑中。

3.2 数据集:训练数据集、测试数据集、回流数据

AI 教母李飞飞在视频里说过:数据不能说比算法重要,但至少同等重要。在垂直 Agent 场景,这句话更接近现实:用同一个基座模型,最后差距往往来自数据与评测体系。

数据一般是算法负责人或算法工程师来负责,但业务同学也需要参考其中,因为数据的好坏并不是算法同学可以解决的,以室内设计为例,一张图是否符合某个风格,算法的同学其实是不懂的,这需要业务同学的深度参与,并一起构建。

算法侧同学提供平台和数据,业务同学提供判断的能力和过程。

其核心产物如下:

  1. 训练/指令数据集(若需要):问题-答案、对话、工具调用轨迹,让模型学会行业表达方式、结构化输出、工具调用格式、常见任务路径
  2. 测试集(强烈建议先做):覆盖关键业务场景 + 对抗样本 + 边界条件,以可以稳定衡量上线质量
  3. 线上回流数据:用户输入、模型输出、工具结果、人工标注、失败原因标签,需要考虑用户隐私或者用户不允许使用其数据作为训练用等情况。这些数据可以让我们看到真实用户问题、失败案例、人工修正记录,用来驱动迭代
  4. 标注规范:什么算“正确/合规/有帮助/可执行”,标签定义要可复用

在小团队中,可以先做轻量的测试集,用于做版本回归;大一些的团队,可以直接先建议数据流水线:采集→脱敏→抽样→标注→入库→评测→报表。一把到位,不过也可以先人工,再脚本,再系统,再平台的逐步演化。

在做数据过程中,数据标注是一个很重要,但是又很重复的活儿。

建议在训练/测试数据中同时包含:

  • 正确输出(结构化字段或执行计划)
  • 关键引用依据(规则/流程/定义来自哪一条知识)
  • 失败示例(常见错误输出长什么样)
  • 评判标准(哪些字段错了就算失败)

对于一个创业团队来说,很难一开始就有大量行业的高质量数据,建议把精力放在:

  • 覆盖核心任务前 20% 的高频路径
  • 覆盖最致命的规则错误
  • 覆盖工具调用最常失败的参数组合
  • 每次迭代只扩一小块范围,但把这块做“闭环”

3.3 提示词

提示词是我们和 Agent 交互的核心路径,在落地时,我们需要把 Know How 变成对话策略执行约束

在垂直 Agent 中,我一般只保留这些内容:

  • 角色与权限边界:能做什么、不能做什么
  • 任务范围:支持哪些任务,不支持哪些任务
  • 关键术语与字段定义(只放必须的,其他走检索)
  • 输出规范:必须给结构化结果、必须给引用、必须留痕字段
  • 追问策略:缺哪些字段必须追问;遇到冲突必须确认
  • 风控策略:触发哪些条件必须拒绝/升级人工
  • 工具调用原则:什么时候必须调用工具验证,什么时候允许只基于知识回答

不要在系统提示词里塞大量「知识正文」,那是 RAG 的工作。

垂直行业用户会追问「你凭什么这么做」。如果引用做不好,Agent 很难进入生产流程。

建议把引用设计成两层:

  • 面向业务用户:引用规则标题 + 生效时间 + 一句话解释
  • 面向审计/排障:引用片段 ID、版本号、检索得分、调用工具日志

这部分一旦做成标准件,后面迭代会轻松很多。

另外,需要考虑提示词的版本问题,需要像代码一样做版本管理(有变更记录、可回滚)。

并且,对于对话策略,需要能澄清问题、确认关键信息、分步执行、失败重试与兜底;对于工具,每个工具的输入输出 schema、超时、幂等、重试、权限等等都需要考虑。还有一些风控策略。

在小团队中,可以用一套主提示词 + 若干场景子提示词,先保证可控,工具尽量少但稳定。

业务复杂一些后,可以做策略路由,做一个策略系统,不同意图走不同策略/模型/工具链,并且可以引入灰度发布等逻辑以减少版本迭代时对用户的影响,以及做 A/B 策略。

3.4 在 LoRA 中如何体现这些 Know How

LoRA 适合学“表达方式与结构化习惯”,不适合塞“会变的事实与规则全文”。

以室内设计为例,LoRA 真正解决的是两件事:

  1. 让模型更像专业的设计师(表达方式、偏好、组合习惯、审美取向更稳定)
  2. 让模型在特定任务上更「听话」且更一致(同样的输入,输出结构、风格强度、方案套路更可控)

LoRA 是把隐性经验固化

设计的很多 know-how 不是“能查到的一条条规则”,而是:

  • 这个风格到底应该选哪些材质更对味
  • 什么比例的木色/灰度/金属更像“中古”
  • 软装怎么搭不显廉价
  • 同一个户型在预算约束下,先动哪里收益最大
  • 同样叫“奶油风”,专业设计师认可的“奶油风”边界在哪里

这些东西虽然也可以写成原则,但很难写成完整可枚举的规则库。这类「难以规则化但能被大量样例体现」的东西,才是 LoRA 更擅长的。

以风格为例,风格可以拆成两部分:

A. 可描述、可枚举的部分(更像知识)
比如:

  • 风格定义与边界:什么是侘寂、什么不是
  • 常用元素清单:材料、色系、线条、灯型、家具轮廓
  • 禁忌与冲突:哪些组合容易翻车
  • 预算/空间约束下的硬规则:动线、安全、尺度、收纳基本原则

这部分适合放在 知识层(术语/规则/流程)+ RAG:因为它会更新、可追溯、要引用来源,改起来也方便。

B. 难以枚举、靠“整体观感”判断的部分(更像模型能力)
比如:

  • “像不像某个风格”的整体一致性
  • 元素比例、轻重、层次、留白的拿捏
  • “高级/廉价”“松弛/用力过猛”这种审美判断
  • 团队偏好的方案套路(同户型常用的解决方式)

这部分更适合用 LoRA:用高质量样例把“认可的风格分布”压到模型里,让它输出更稳定。

在以 LoRA 落地的过程中, 风格一致性更稳,输出更贴近可交付物,方案「更会落地」

3.5 那大模型呢?

Know How 在大模型中如何体现?企业不炼模型,怎么选、选完能做什么?

大多数企业不可能自己训练大模型,现实做法是:选一个合适的基座 + 做好工程层的增强

大模型的选择需要在成本、稳定性、延迟之间达到可用平衡,并可持续可迭代。 这里的迭代不仅仅是大模型本身的迭代,还可能是切换到其它的大模型。

在当前的 AI 场景,没有所谓的客户忠诚可言,哪个好用用哪个,而且切换成本不高(API + 提示词场景)。

创业小团队需要以 RAG + 行为策略,把 80% 问题做稳,暂缓微调;把钱花在评测与回流上。 只有这些成熟一些后,可以再考虑上 LoRA/微调,收益才可控。

对于大模型,我们会关心这些维度:

  • 工具调用能力:函数调用是否稳定、参数是否可控
  • 长上下文与检索融合:能不能在引用材料下保持一致
  • 结构化输出稳定性:格式错一次,生产系统就要兜底
  • 安全与合规:越权回答、敏感信息处理、拒答策略
  • 成本与延迟:是否能在预算内跑到规模
  • 部署形态:公有云/私有化/混合;日志与数据是否可控

我们不会只选一个模型就定终身。哪个好用用哪个,并且在工程层面实现「模型路由」:不同任务用不同模型,失败自动降级

4. 聊下组织

在整个落地的过程中,组织是对落地结果的非常重要的保障,需要事事有人跟,件件有人负责,一般的分工如下:

  • 业务负责人:定义任务边界与验收标准,批准规则变更
  • 行业专家:产出规则/例外/口径,参与标注与复核
  • 产品/运营:维护任务地图、模板、知识版本,推动回流闭环
  • 算法/工程:RAG、工具链、评测、监控、部署与回滚

5. 小结

Know How 落地的目标不是「更像专家」,而是「更像系统」

垂直行业的 AI Agent,最终要进入的是流程、合规和交付,而不是聊天。

以上。

如何构建行业 Agent 的 RAG

行业 Agent 和我们常用的「通用聊天 Agent」不是一类东西。

行业 Agent 是要能解决问题的,而查资料只是其中一步,后面还要做判断、走流程、调用系统、校验结果、留痕、可回放。

RAG 在这里的角色也变了:它不只是给模型喂上下文,而是给 Agent 提供可执行任务所需的依据、约束、参数和证据链。

今天我们聊一下行业 Agent 构建过程中的 RAG 怎么写,从目标、数据,检索以及使用 RAG 等等方面。

1. 行业 Agent 的 RAG 要服务什么能力

行业 Agent 常见的工作方式是「多步闭环」:

  1. 识别问题类型与业务对象(客户、设备、合同、工单、订单、项目、账号等)
  2. 查依据(制度、手册、知识库、历史工单、标准、接口文档)
  3. 做动作(查系统、下发指令、开通配置、生成工单、发邮件、写报告、提审批)
  4. 校验与回写(确认变更成功、回填字段、留痕、把引用/证据挂到工单)
  5. 解释(给用户说明依据、影响范围、回滚方案、下一步建议)

所以行业 Agent 的 RAG 不只是「问答检索」,而是至少要覆盖这些信息类型:

  • 规则依据:制度、条款、SOP、合规模板、变更规范
  • 操作依据:系统使用手册、接口文档、参数含义、错误码处理
  • 对象事实:来自业务系统的实时/准实时数据(用户信息、资源状态、库存、账单、设备状态)
  • 历史经验:工单处理记录、故障复盘、已知问题(KEDB)
  • 风险边界:禁用操作清单、权限范围、需要人工复核的条件

如果我们只做「文档向量库 + 生成」,Agent 走到第 3 步就会卡:它不知道该调用哪个系统、需要哪些字段、什么情况下要停下来让人确认,也不知道怎么证明自己做对了。

2. 指标

行业 Agent 场景里,最好用三类指标描述:

2.1 任务完成类指标

  • 任务成功率(最终动作成功并通过校验)
  • 平均完成时长(端到端)
  • 人工介入率(需要人确认/补充信息/兜底)
  • 回滚率(执行后需要撤销/修正)

2.2 风险类指标(红线不能过)

  • 越权率(检索/执行是否越权,目标是 0)
  • 误执行率(不该执行却执行)
  • 误答导致的错误操作(把“编出来的依据”当成执行依据)
  • 引用不可追溯率(给不出来源或来源不支持结论)

2.3 知识与检索类指标(用于驱动迭代)

  • 依据命中率(标准依据是否出现在 topK)
  • 冲突处理正确率(新旧版本/多来源冲突时是否选对)
  • 时效正确率(是否引用过期/废止内容)
  • 覆盖率(高频问题是否覆盖)

行业 Agent 的 RAG 设计,最终要对这些指标负责。否则我们会陷入「答得像那么回事,但不敢让它动系统」的状态。

3. 数据层

行业 Agent 的 RAG,数据比模型更重要。

3.1 三类数据

  1. 静态权威知识:制度、规范、手册、标准、产品文档
    目标:可追溯、版本可控、可引用
  2. 动态业务事实:来自业务系统的数据(CRM、工单、CMDB、监控、计费、IAM 等)
    目标:可校验、可审计、最好可回放(至少保留查询快照)
  3. 过程与经验:历史工单、故障复盘、处理记录、FAQ 演进
    目标:可过滤(质量参差)、可分级(权威/经验/猜测)

很多项目失败是因为把第 3 类当第 1 类用,把「经验」当「制度」。Agent 一旦据此去执行动作,风险会放大。

3.2 每个知识片段必须带的元数据

行业 Agent 需要的不只是「能搜到」,还要「能用来做动作」。建议每个 chunk 至少包含:

  • doc_id / chunk_id
  • source(系统/库)
  • source_url(可点击或可定位)
  • title_path(标题链)
  • doc_type(制度/手册/接口文档/复盘/工单等)
  • versionstatus(草稿/已发布/已废止)
  • effective_from / effective_to(能给就给)
  • owner(维护人/团队)
  • updated_at
  • 适用范围标签:产品线/地区/客户/机型/环境(生产/测试)
  • 权限标签:RBAC/ABAC 所需字段
  • 可执行性标签(建议加):
    • 是否可作为执行依据(例如制度/已发布 SOP 才能)
    • 是否需要人工复核(高风险操作)
    • 是否仅供参考(复盘/经验)

这些标签对 Agent 比较关键:它能决定「能不能做、要不要停、怎么解释」。

3.3 文档解析与切分

行业 Agent 的 RAG 的切分策略,优先级一般是:

  1. 按结构切:章/节/条款/接口字段说明/错误码条目
  2. 把“前置条件/限制/例外”跟规则放一起
  3. 表格与字段定义要保表头(字段含义脱离表头就没法用)
  4. 把可执行步骤单独成块(SOP、Runbook、变更步骤)

注意:不要把「定义」「适用范围」「例外条款」切碎。Agent 执行动作时,最需要的就是边界条件和限制。

4. 索引与检索

行业 Agent 和常规的 Agent 不同,其更依赖于「过滤 + 排序 + 证据链」

4.1 使用混合检索

行业 Agent 的查询里会出现大量「硬信息」:

  • 条款号、标准号、型号、错误码、参数名、接口路径、工单号、配置项名

纯向量在这些场景不稳。工程上更常用的是:

  • 关键词/BM25:抓编号、术语、字段名、错误码
  • 向量召回:抓语义相近、同义表达
  • 融合 + 重排:把候选集排序成「最能支持动作/结论」的那几段

4.2 检索要先过滤,再找相似

行业 Agent 的过滤通常是强约束,如下:

  • 权限过滤(用户/角色/租户/数据域)
  • 状态过滤(废止、草稿默认不进)
  • 生效时间过滤(尤其制度、计费、合规)
  • 适用范围过滤(产品/地区/环境)
  • 数据域隔离(内部/客户侧/合作方)

如果我们把这些留到生成阶段「让模型自己注意」,效果不可控,风险也不可控。

4.3 Agent 专用检索

不止检索答案,还要检索工具与参数

行业 Agent 经常需要两类额外检索:

  1. 工具检索(Tool RAG)
    从「工具说明库/接口文档/SOP」里检索:该用哪个工具、需要哪些参数、有哪些限制、失败怎么处理。
  2. 参数与字段检索(Schema RAG)
    从「数据字典/字段说明/枚举值」里检索:字段含义、可选值、校验规则、示例格式。

这两类检索的结果不一定直接展示给用户,但会决定 Agent 能不能把动作做对。

5. 固化 Agent 使用 RAG 的逻辑

行业 Agent 的 RAG 关键是要「把 RAG 插进决策点」

行业 Agent 常见的内部循环大致是:

  • Plan(决定下一步做什么)
  • Act(调用工具/检索/执行)
  • Observe(拿到结果)
  • Decide(是否继续、是否需要人确认、是否结束)
  • Explain(对外输出)

RAG 的插入点建议固定成三处:

5.1 决策前

用 RAG 找「规则边界」

在 Agent 做出关键决策前,先检索:

  • 是否允许执行(权限、合规、风险等级)
  • 前置条件是什么(必须具备哪些信息、哪些系统状态)
  • 需要的审批/确认是什么(是否必须人工确认)

这一步的输出的是「约束」,不是「答案」。它会影响下一步是继续、暂停还是转人工。

5.2 执行前

用 RAG 找「操作步骤与参数」

执行某个动作前,检索:

  • SOP / Runbook / 接口文档
  • 必填参数、参数来源
  • 校验方式(执行后如何确认成功)
  • 回滚方式(失败/异常如何撤销)

这一步的输出是「可执行步骤」,不是「解释性段落」。

5.3 执行后

用 RAG 做「结果判定与错误处理」

拿到工具返回值后,检索:

  • 错误码含义与处理建议
  • 常见失败原因
  • 是否需要升级/转人工
  • 是否需要二次校验(比如跨系统一致性)

这一步的输出是「下一步动作建议 + 证据」。

6. 生成与输出

行业 Agent 的输出要分层,不要把所有东西都写给用户

行业 Agent 的输出建议拆成三层,分别服务不同目标:

  1. 用户层:结论/进展、需要用户补充什么、下一步怎么走
  2. 证据层:引用依据(链接、页码、版本、生效日期)
  3. 执行层(留痕层):本次调用了什么工具、参数摘要、返回结果摘要、校验结果、回滚点

用户不一定要看到执行层细节,但系统必须存储这些内容。只有出了问题能回放,才敢放权。

同时,行业 Agent 的生成要有硬规则:

  • 没有命中权威依据:不输出肯定结论
  • 有冲突:必须把冲突来源、版本、生效时间写清楚
  • 涉及高风险动作:必须停下来请求确认(并把依据与影响范围给出来)
  • 引用必须来自检索上下文:不允许来虚的,「凭印象补一句」

7. 权限、审计、隔离

**行业 Agent 的 RAG 必须「检索前隔离」。

行业 Agent 一旦能调用系统,风险比问答高一个量级。权限要分两层:

7.1 知识权限

能不能看的问题

  • 文档/知识片段按 ABAC/RBAC 做过滤
  • 按租户隔离(多客户必做)
  • 按数据域隔离(内部策略、客户信息、合作方信息)

7.2 行为权限

能不能做的问题

  • 工具级权限:这个角色能调用哪些工具
  • 动作级权限:同一工具下哪些操作允许(例如只读查询 vs 修改/下发)
  • 参数级权限:同一动作下哪些资源范围允许(例如仅能操作自己负责的项目/客户)

很多团队只做了「知识权限」,没做「行为权限」。

这会导致不放心,即使 Agent 能查到 SOP,也能学会「怎么做」,但你又不敢让它真的做。

7.3 审计要能回答四个问题

  • 为什么这么做(依据是什么)
  • 做了什么(调用了哪些工具、关键参数是什么)
  • 得到了什么(返回结果与校验结果)
  • 谁批准的(如果需要人工确认)

没有这四个问题的答案,行业 Agent 很难通过安全审查,也很难在出事后定位责任与修复点。

8. 灰度上线策略

先控制风险,再谈覆盖率

行业 Agent 的上线节奏建议按权限逐步放开:

  1. 只读 Agent:只检索、只解释、只给建议,不执行任何写操作
  2. 半自动 Agent:可以生成“执行计划/工单草稿/变更单草稿”,必须人工确认后执行
  3. 受限自动 Agent:只允许低风险、可回滚、可校验的动作自动执行(例如查询、对账、生成报表、创建工单、补全字段)
  4. 高风险动作:默认保留人工确认,除非你能做到严格的权限、校验、回滚、审计,并且有明确的责任边界

上线必须准备三套兜底:

  • 超时与降级:检索失败/重排失败/模型失败时怎么退化
  • 失败回滚:执行失败怎么撤销,撤销失败怎么升级
  • 人工接管:在关键节点能一键转人工,并把证据与执行轨迹带过去

9. 常见坑

  1. 把「经验工单」当「标准答案」:Agent 会把偶发处理当成通用规则。必须分级与降权。
  2. 只做知识库,不做数据字典与工具库:Agent 会不知道参数怎么填、字段是什么意思、错误码怎么解。
  3. 只做检索,不做执行前校验与执行后校验:敢执行的前提是可校验、可回滚。
  4. 权限只管文档,不管工具:最容易在这里翻车。
  5. 没有回放评测:你不知道一次小改动会不会让 Agent 在某个分支上开始乱走。
  6. 把「多轮对话」当「任务编排」:行业 Agent 的关键是状态机与决策点,不是聊得多。

最后,行业 Agent 的 RAG 如果要构建,不仅仅是算法的事情,需要更多的业务专家,业务 Owner 来直接参与,他们才是最懂行业的人。需要他们来定义「什么算答对/答错」、哪些文档权威、版本如何取舍、哪些内容不能答。

以上。

AI 编程时代,人与人的交流减少了是好事吗?

随着 AI 编程在团队越来越普及,猛然发现一个正在变得「习以为常」的变化:以前遇到问题,第一反应是问同事或 Google;现在第一反应是问 AI。

Anthropic 在 2025 年 8 月对内部 132 名工程师和研究员做了调研(53 次深度访谈 + Claude Code 使用数据分析),把这个变化讲得很具体:Claude 成了“第一站”。有人说自己现在提问更多了,但 80%–90% 的问题都丢给 Claude,只有剩下 Claude 解决不了的才去找同事。

交流减少,到底是不是好事?

答案很难用一句话盖棺定论,但可以把它拆开:减少的是什么交流、增加的是什么交流、谁受益、谁受损、组织会丢掉什么能力。拆开之后,我们聊聊。

1. 交流为什么会减少?

「问同事」换成「问 AI」,最核心的原因不是大家突然不爱社交,而是成本变了

  • 问 AI 不需要等对方空闲
  • 不担心打断别人
  • 不欠人情
  • 不需要把上下文组织成「适合对人讲」的样子(很多时候我们只要把报错、代码片段、目标贴过去)
  • AI 还能陪你迭代:你改一句,它再改一句,来回几十轮也不尴尬

Anthropic 的访谈里,很多人把 Claude 描述成「常驻协作者」。但与此同时,他们也强调:多数工作仍要监督和验证——频繁使用,不等于完全放手。在问卷里,超过一半的人认为自己能「完全委派」的比例只有 0–20%。

交流减少,不代表工作变简单;很多交流只是从「人际通道」搬到了「人机通道」。

2. 交流减少可以带来好处

如果只说交流减少带来「效率提升」,太粗了。

更准确的说法是:很多原本不值得打扰人的问题,现在可以被即时解决,这会直接改变团队的节奏。

Anthropic 的数据里有几个信号很典型:

  • 受访者自报:现在 Claude 参与了他们 约 59%–60% 的工作,平均带来 约 +50% 的生产力提升(相较 12 个月前是 2–3 倍增长)。
  • 他们把生产力的来源描述为:每类任务耗时略降,但产出量显著上升
  • 还有一个容易被忽略的点:受访者估计 27% 的 Claude 辅助工作“本来不会做”,包括一些“nice-to-have”、探索性工作、文档测试、以及小修小补。

交流减少在这里的正面作用是:
很多「本来要去问人」的碎问题,被 AI 吃掉以后,人的协作可以更集中在真正需要对齐的地方。

在 Anthropic 的访谈里,有人说 Claude 形成了一个过滤器:例行问题交给 Claude,同事只处理更复杂、更需要组织上下文或判断力的部分。

这对很多团队来说,会带来几类直接收益:

  1. 减少同步阻塞:你不用等某个专家上线回复,很多事可以自己推进。
  2. 减少社交摩擦:不必反复确认「我现在打扰你是否合适」。
  3. 让“冷启动”更容易:对新人或跨领域的人,AI 能补齐工具链、代码风格、惯例解释。
  4. 让协作更聚焦:把人从「答疑机器人」解放出来,去做判断、方案权衡、目标对齐。

从组织角度讲,这确实是好事:同事的时间更像「稀缺资源」,而 AI 的时间不是

3. 交流减少是有代价的

交流减少的问题在于:人与人的交流减少,减少的往往不是闲聊,而是一些「看起来低效、但在组织里非常有价值」的过程。

3.1 指导与传承会变弱(尤其对新人)

Anthropic 有个很直接的反馈:一位资深工程师说,难过的是初级员工不像以前那样常来问问题了——虽然他们确实更快得到答案、学得也更快,但连接少了。

这类“连接”不是情绪价值这么简单,它对应的是:

  • 代码审美与工程判断的口口相传
  • 对系统边界、坑位、历史遗留的理解
  • 「为什么我们不这么做」的经验
  • 出问题时应该找谁、怎么升级、什么时候停手

AI 能解释代码、给建议,但它替代不了一个组织里那些隐性的「运行规则」和「风险嗅觉」。或者我们可以称它为「潜规则」

3.2 越依赖 AI,越需要高手,但高手可能变少

Anthropic 提到一个很关键的矛盾:监督 Claude 需要技能,而过度使用 AI 又可能让技能变少。有人担心的不是自己会不会写代码,而是「监督与安全使用」的能力会不会退化。

访谈里还有个安全相关的例子很典型:Claude 提出一种「很聪明但很危险」的方案,像「非常有才但缺经验的初级工程师」会提的那种。能识别这种危险,需要经验和判断力。

当团队把大量交流(包括讨论、复盘、推演)替换为「我和 AI 私下迭代」,长期会出现一种风险:
团队表面产出更快,但「集体判断力」的增长变慢。

3.3 协作方式会变

Anthropic 的访谈呈现出分化:

  • 约一部分人认为协作没变:会照开、方向照讨论,只是执行方式变成「你对着很多个 Claude 工作」。
  • 也有人明显感到:自己和 Claude 的协作远多于和同事的协作。
  • 有人喜欢这种变化,因为“不用麻烦别人”;也有人抵触,因为“更喜欢和人一起工作”。

这说明:交流减少不是单向度的,它改变的是交流的结构——从“随手问”转向“更重的对齐”。
而一旦对齐变重,团队如果没有刻意经营,很容易出现:

  • 每个人都在本地把东西做很快,但最终合并、上线、验收时冲突变多
  • 设计决策被“私下定稿”,缺少充分挑战
  • 标准不一致:测试、可维护性、可观测性被忽略(尤其在产出量暴涨时)

当「实现」和「规划」都更多交给 AI,人类之间如果还沿用旧的协作节奏,很容易失配。

3.4 意义感

写代码的「手感」和「心流」正在消失,甚至影响职业满足感。
从个人体感上来说也是,已经没有心流和手感的状态了,只不停的输入提示词和等待。 当然,你的脑海里还是会有一个架构图,一个方向。 如果这个都没有了,那你存在和不存在已经没有意义了。

也有人发现自己真正喜欢的是「写完之后带来的结果」,而不是「写的过程」。

这会影响一个很现实的问题:当我们减少了与同事的交流,同时也减少了自己动手的比例,我们每天工作的乐趣来源会改变。如果团队不谈这个问题,人的流失会以更隐蔽的方式发生。

4. 所以,交流减少是不是好事?

看你减少的是哪一种

把「交流」粗暴地当成一个东西,会得出很混乱的结论。更可操作的拆分方式是:你减少的是下面哪一种?

4.1 如果减少的是“低价值同步”,通常是好事

比如:

  • 解释某个报错怎么修
  • 查一个命令怎么用
  • 复制粘贴式的示例代码
  • “我现在卡住了,给我一个思路”这种轻量提示

这些问题交给 AI,整体是正收益:快、便宜、不打扰人。

4.2 如果减少的是「决策对齐」和「经验传承」,长期不是好事

比如:

  • 为什么我们要这么设计?约束是什么?边界是什么?
  • 这个改动会不会引入安全/合规风险?
  • 出现事故时如何复盘、如何改流程?
  • 新人如何在真实项目里形成判断力?
  • 谁对什么负责?升级路径是什么?

这些不是「知识问答」,而是组织的运行方式。AI 可以参与,但不能替代团队成员之间的共识建立。

4.3 如果减少的是「互相看见」

我们会失去韧性

很多团队扛过线上事故、跨部门冲突、方向摇摆,靠的不是某个代码技巧,而是:

  • 彼此信任
  • 知道对方擅长什么、在意什么、底线是什么
  • 关键时刻愿意帮、愿意兜

当日常交流下降到只剩「正式会议」,这类韧性会下降。平时看不出来,出事时就会很明显。

5. 把「人际交流」从随缘变成机制

如果我们是负责人,最重要的不是号召大家「多交流」,而是把交流做成机制,让它在 AI 加速的节奏下仍然成立。

5.1 明确:哪些事必须找人,哪些事默认找 AI

给团队一个简单的「分流规则」,避免两种极端:

  • 极端 A:什么都问人,人被打爆
  • 极端 B:什么都不问人,最后在合并时爆炸

可以直接定几条硬规则(按团队情况调整):

  • 涉及架构边界、接口契约、数据一致性、安全权限:必须找人评审/同步
  • 影响线上、影响成本、影响合规:必须找人
  • 只是工具用法、报错排查、脚手架生成:默认问 AI
  • 不确定是否该找人:先写清楚问题和已尝试的路径,再找人(减少沟通成本)

5.2 给资深工程师留出“可见的指导时间”

Anthropic 的访谈里已经出现了「新人不来问了」的信号。很多团队会误判:新人不问 = 新人更强。短期可能是,长期不一定。

更稳的做法是:

  • 每周固定一个短时段做 office hours(公开问答,不私聊)
  • 重要模块设定 design review/ADR(哪怕轻量)
  • 对“AI 生成的关键代码”设立更严格的 review 标准(不是反 AI,而是防止组织能力流失)

核心目标是:让“提问—讨论—形成共识”这条链继续存在,只是把低价值部分交给 AI。

5.3 把「AI 使用痕迹」纳入协作,而不是藏起来

现在很多人会私下反复与 AI 迭代,最后只给团队一个结果。协作成本反而上升,因为别人看不见过程,也不知道你为什么这么做。

我们可以要求(或鼓励)大家在 PR/设计文档里补两类信息:

  • 关键决策的备选方案与取舍(哪怕两三条)
  • 风险点和验证方式(你如何确认它是对的)

这会让交流更少但更高质量。

5.4 允许「必要的慢」

关键能力要刻意练

团队层面可以做这些:

  • 对核心链路、核心组件:要求成员能解释清楚,而不是「AI 说的」
  • 对新人:阶段性要求手写/手推一些关键部分,确保他们能监督 AI,而不是被 AI 带着跑
  • 对事故复盘:强调人对系统的理解沉淀,而不是贴一段 AI 总结

目标不是回到过去,而是让团队保持「监督能力」。

6. 我们能做点什么

如果我是工程师,交流减少对我最直接的影响通常是两点:我变快了,但我更孤立了。要避免后者,方法也不复杂。

6.1 让 AI 解决「问题」,让人参与「判断」

我们可以默认把下面这些交给 AI:

  • 解释陌生代码
  • 查资料、列步骤
  • 生成脚手架
  • 写测试样例的初稿
  • 重复性重构

但遇到这些场景,建议尽量把人拉进来:

  • 需要在多个方案之间做取舍
  • 觉得“有点不对劲但说不上来”
  • 要改动一个并不拥有的模块
  • 担心引入隐性风险(安全、性能、成本、可维护性)

AI 很会「给你一个能跑的答案」,但很多线上事故的起点就是“能跑”。

6.2 主动经营「被看见的贡献」

当大家都在本地和 AI 加速时,团队很容易只看到结果,看不到难度。我们需要更明确地让别人理解我们的贡献是什么,尤其在:

  • 做的是“减少未来成本”的事(可观测性、稳定性、性能、可维护性)
  • 修的是“papercuts”(Anthropic 也提到 Claude Code 里 8.6% 的任务属于这类小修小补)

这些工作如果不被看见,组织很容易把它们当作「AI 随手做的」,从而压缩这类投入,最后反噬效率。

6.3 保留与同事的「低成本连接」

不需要刻意社交,也不用强迫自己多聊。最实用的是维持低成本连接,比如:

  • 每周一次简短同步:在做什么、接下来风险是什么、需要谁拍板
  • 关键节点提前说:我准备这么改,谁最该看一眼
  • 把求助写成可复用的文本:背景、现象、试过什么、倾向的方案

这样不会回到「到处问人」,但也不会变成“「独自和 AI 闭门造车」。

7. 小结

交流减少本身不是问题,但当交流减少以失去组织能力时这会是一个问题,而且还是一个大的问题。

「人与人的交流减少」这件事,短期几乎一定会发生,因为它符合成本与效率逻辑。Anthropic 的内部研究把这种变化讲得很直白:AI 正在成为第一入口,很多例行沟通会被替代,协作结构会重排。

真正需要在意的是:

  • 我们减少的是不是那些本来就该被自动化吞掉的交流
  • 我们有没有保留决策对齐、经验传承、风险评审这些「组织能力」的通道
  • 当每个人都能更快产出时,我们的团队是否还能形成一致的标准与判断

如果这些做到了,交流少一点通常是好事:更少打扰、更少等待、更高产出。
如果这些没做到,交流少一点会变成隐性负债:新人长得快但根不稳,系统跑得快但风险更高,团队看起来忙但共识更薄。

参考资料

以上。