标签归档:AI

关于 AI Agent: 从 Manus 聊起

最近几天 Manus 的新闻不停的出现在我的信息流中,从 Manus 官方账号清空了微博、小红书上的所有内容,到裁员争议,据说将核心技术人员迁往了新加坡。一个从北京、武汉出发的纯正中国公司,最终选择了离开。

还记得今年火热的 3 月,Manus 发布当天就引爆了社交网络。邀请码一码难求,甚至在二手平台被炒出天价。创始人肖弘(人称red)带领的这支年轻团队,用一个产品点燃了整个行业对 AI Agent 的热情。

2025 年是 AI Agent 元年。AI Agent 的发展速度惊人。不只是 Manus 这种通用型 Agent,还有各种垂直领域的,如 设计领域的 lovart,编程领域的 Claude Code Cursor 等等。

那什么是 AI Agent,它由什么组成?今天我们聊一聊。

1. 从专家系统说起

要说 AI Agent 的历史,得从上世纪 60 年代说起。那时候,计算机科学家们就在琢磨一个事:能不能让机器像人一样,自己去感知环境、做出决策、然后采取行动?

最早的尝试是专家系统。比如 1970 年代斯坦福大学开发的 MYCIN,这是一个诊断血液感染疾病的系统。它的工作方式很简单:问医生一堆问题,然后根据预设的规则给出诊断建议。虽然现在看来很原始,但在当时,这已经算是「智能」了。

到了 80 年代,出现了更复杂的系统,比如 R1/XCON,帮助 DEC 公司配置计算机系统。这些系统有个共同特点:它们都是基于规则的。你得事先把所有可能的情况都想到,然后写成 if-then 规则。问题是,现实世界太复杂了,你不可能把所有情况都考虑进去。

90 年代,研究者们开始尝试新的路子。他们发现,与其让人去编写所有规则,不如让机器自己去学习。于是有了基于机器学习的 Agent,比如强化学习 Agent。这些 Agent 可以通过试错来学习如何完成任务。

但真正的转折点出现在 2010 年代深度学习兴起之后。特别是 2017 年 Transformer 架构的出现,彻底改变了游戏规则。有了 GPT、BERT 这些大语言模型,AI Agent 突然变得「聪明」了很多。它们不再需要人类事先编写规则,而是可以理解自然语言,根据上下文做出合理的判断。

2. 现代 AI Agent 的样子

要理解现代的 AI Agent,我们得先搞清楚它到底是什么。

简单来说,AI Agent 就是一个能够自主感知环境、制定计划、采取行动来完成特定目标的系统。听起来很抽象?我举个例子:

假设你要让 AI 帮你订一张从北京到上海的机票。一个简单的聊天机器人可能只会回答:”请您登录航空公司网站自行预订。”但一个真正的 AI Agent 会这样做:

  1. 理解你的需求(什么时间、预算多少、有什么偏好)
  2. 搜索多个航空公司的航班信息
  3. 比较价格和时间
  4. 根据你的偏好筛选
  5. 甚至可能帮你完成预订(如果有相应的接口)

这就是 AI Agent 和普通 AI 应用的区别:它不是被动地回答问题,而是主动地解决问题

3. 核心技术和架构

现在咱们来看看 AI Agent 是怎么实现的。核心架构可以分成四个部分:

3.1 感知模块

这是 Agent 的「眼睛」和「耳朵」。它需要理解用户的输入,同时还要感知环境的状态。比如,当你让 AI Agent 帮你写代码时,它需要理解:

  • 你想要实现什么功能
  • 使用什么编程语言
  • 有什么特殊要求
  • 当前的代码结构是什么样的

但这里有个关键点:感知模块需要区分两种不同的信息——状态上下文和意图上下文。

状态上下文是环境的客观信息。比如:

  • 当前项目使用的是 Python 3.9
  • 代码库里已经有了用户认证模块
  • 数据库是 MySQL
  • 使用的是的 FastAPI 框架

这些信息是确定的、可验证的事实。Agent 需要准确地获取和理解这些信息,因为任何误判都可能导致后续行动的失败。

意图上下文则是用户想要达成的目标,这往往更加模糊和主观。比如用户说「帮我优化一下这段代码」,Agent 需要理解:

  • 「优化」是指性能优化还是可读性优化?
  • 用户的性能预期是什么?
  • 有没有特定的约束条件?

区分这两种上下文至关重要。很多 AI Agent 的失败,就是因为混淆了状态和意图。比如,用户说「这个函数太慢了」,Agent 需要识别出:

  • 状态:函数执行时间是 500ms
  • 意图:用户希望降低到 100ms 以内

现代的 AI Agent 通过多种方式来增强感知能力:

多模态感知:不只是文字,还包括图像、语音、甚至视频。Cursor 支持图片上传,代码索引,文档等。

主动询问:当信息不充分时,优秀的 Agent 会主动提问。「你提到要优化性能,具体是想优化响应时间还是内存占用?」这种澄清式的对话,能大大提高后续行动的准确性。

历史记录:通过分析用户的历史行为,Agent 可以更好地理解当前的意图。如果用户之前多次要求「简洁的代码」,那么在新的任务中,Agent 就会倾向于生成更简洁的解决方案。

环境探测:高级的 Agent 还会主动探测环境。比如,在开始写代码前,它可能会先检查项目的配置文件、依赖列表、测试用例等,构建一个完整的环境画像。

感知的准确性直接决定了 Agent 的表现。一个看不清路的司机,再好的驾驶技术也没用。同样,一个不能准确理解用户意图和环境状态的 Agent,后续的规划和执行必然会出问题。

3.2 推理模块

这是 Agent 的「大脑」,也就是大语言模型。现在主流的做法是使用 GPT-4、Claude、Gemini 这样的大模型。但光有大模型还不够,还需要深入理解不同模型的特性,才能让它们更好地工作。

模型的性格差异

就像人有不同的性格,AI 模型也有各自的「个性」。这不是玄学,而是训练方式和优化目标的差异造成的。

以 Cursor 编辑器的实践为例,他们把模型分为两大类:

思考型模型(Thinking Models):

  • Claude 3 Opus:喜欢先理解全局,会主动推断你的意图
  • Gemini 2.0 Flash:自信果断,经常会做出超出预期的大改动
  • o1:专门为复杂推理设计,会花时间深入分析问题

这类模型就像经验丰富的专家,你给它一个大方向,它会自己规划路径。适合探索性任务、大规模重构、或者当你自己也不太确定最终方案时使用。

执行型模型(Non-thinking Models):

  • Claude 3.5 Sonnet:等待明确指令,不会过度推断
  • GPT-4 Turbo:行为可预测,适合精确控制
  • 文心一言 4.0:在中文任务上表现稳定

这类模型像是可靠的助手,严格按照你的要求执行。适合明确的任务、需要精确控制的场景、或者当你已经知道要做什么时使用。

选择模型的艺术

选择合适的模型,就像选择合适的工具。你不会用大锤子去拧螺丝,也不会用螺丝刀去砸钉子。

根据任务类型选择

  • 代码生成:Claude 3.5 Sonnet 和 GPT-4 都很优秀
  • 代码理解和重构:Gemini 2.0 Flash 的长上下文能力突出
  • 复杂 Bug 调试:o1 的深度推理能力更适合
  • 中文文档处理:通义千问、豆包有本土优势

根据交互风格选择

  • 如果你喜欢给出详细指令:选择执行型模型
  • 如果你偏好给出大方向:选择思考型模型
  • 如果你需要创造性方案:选择更”活跃”的模型
  • 如果你需要稳定输出:选择更”保守”的模型

提示词工程的进化

早期的 AI Agent 严重依赖精心设计的提示词。但随着模型能力的提升,这种情况正在改变。

从复杂到简单: 过去我们可能需要这样的提示词:

你是一个专业的Python开发者。请严格遵循PEP8规范。
在编写代码时,请考虑以下几点:
1. 代码的可读性
2. 性能优化
3. 错误处理
...(还有20条)

现在,一句简单的”帮我优化这段代码”就能得到不错的结果。

动态提示词策略: 现代 AI Agent 会根据上下文动态调整提示词:

  • 初次对话:使用更详细的背景说明
  • 后续对话:只提供增量信息
  • 错误修正:加入具体的约束条件
  • 创造性任务:减少限制,鼓励探索

混合模型策略

越来越多的 AI Agent 开始采用混合模型策略,在一个任务流程中使用多个模型:

  1. 理解阶段:使用 Claude 3 Opus 深入分析需求
  2. 规划阶段:使用 o1 制定详细的执行计划
  3. 执行阶段:使用 GPT-4 Turbo 快速生成代码
  4. 优化阶段:使用专门的代码模型进行微调

这种方式能够充分发挥每个模型的优势,同时控制成本。

3.3 记忆模块

人做事情需要记住前面发生了什么,AI Agent 也一样。记忆分成几种:

  • 短期记忆:当前对话的上下文
  • 长期记忆:之前的对话历史、学到的知识
  • 工作记忆:执行任务过程中的中间状态

但实现一个好的记忆系统,比想象中要复杂得多。

3.3.1 记忆的层次结构

就像人脑有不同类型的记忆,AI Agent 的记忆系统也需要分层设计:

感知记忆(Sensory Memory)

  • 保存时间:几秒到几分钟
  • 内容:用户刚刚的输入、系统刚刚的输出
  • 用途:处理连续对话中的指代关系

工作记忆(Working Memory)

  • 保存时间:整个任务周期
  • 内容:当前任务的状态、中间结果、待办事项
  • 用途:复杂任务的分步执行

情景记忆(Episodic Memory)

  • 保存时间:数天到数月
  • 内容:完整的对话历史、任务执行记录
  • 用途:理解用户偏好、避免重复错误

语义记忆(Semantic Memory)

  • 保存时间:永久
  • 内容:领域知识、最佳实践、学到的模式
  • 用途:积累经验、提升能力

3.3.2 实现方案-RAG(检索增强生成)

这是目前最成熟的方案。基本思路是:当 AI Agent 需要回答问题时,先去知识库里检索相关信息,然后把这些信息作为上下文提供给大模型。

比如你问:”我们公司的年假政策是什么?”Agent 会先去检索公司的政策文档,找到相关内容,然后基于这些内容生成回答。

RAG 的进化史

第一代 RAG(2020-2022):

  • 简单的向量检索
  • 使用 BERT 或 Sentence-BERT 做编码
  • 召回 Top-K 相关文档
  • 效果一般,经常找不到真正相关的内容

第二代 RAG(2023-2024):

  • 引入混合检索(向量+关键词)
  • 使用更强的编码模型(如 BGE、E5)
  • 加入重排序(Reranking)步骤
  • 开始考虑文档结构和语义分块

第三代 RAG(2024-现在):

  • 多级索引结构(摘要→章节→段落)
  • 查询改写和扩展
  • 动态上下文窗口调整
  • 引入知识图谱增强检索

实践中的 RAG 优化技巧

  1. 智能分块:不要机械地按字数切分,而是按语义单元切分

    • 代码:按函数/类切分
    • 文档:按章节/段落切分
    • 对话:按话轮切分
  2. 多路召回:同时使用多种检索策略

    • 向量相似度检索
    • BM25 关键词检索
    • 实体链接检索
    • 基于图的检索
  3. 上下文工程:检索到的内容需要精心组织

  4. 增量索引:新知识的实时更新

    • 使用流式处理架构
    • 支持热更新索引
    • 版本控制和回滚机制

3.3.3 实现方案-超长上下文

最新的趋势是直接增加模型的上下文长度。比如 Claude 3 已经支持 200K token 的上下文,Gemini 1.5 Pro 甚至支持 200 万 token。

长上下文的真实挑战

虽然模型号称支持超长上下文,但实际使用中会遇到很多问题:

  1. 「迷失在中间」现象:模型对上下文开头和结尾的内容记忆较好,但中间部分容易遗忘

  2. 注意力稀释:上下文越长,模型对每个部分的注意力就越分散

  3. 推理退化:在超长上下文中,模型的推理能力会显著下降

混合方案:长上下文 + 选择性注意

3.3.4 主动遗忘

这是一个反直觉但很重要的概念:不是记住越多越好,而是要学会遗忘。

为什么需要遗忘?

  1. 降噪:不是所有信息都值得记住
  2. 隐私:某些敏感信息需要及时删除
  3. 效率:保持记忆系统的高效运转
  4. 相关性:过时的信息可能产生负面影响

遗忘策略

  1. 基于时间的遗忘

    • 会话结束后 24 小时删除临时信息
    • 30 天后归档低频访问的记忆
    • 90 天后删除无用的错误记录
  2. 基于重要性的遗忘

    • 使用 LRU(最近最少使用)策略
    • 基于访问频率的动态评分
    • 保留高价值的”关键时刻”
  3. 基于相关性的遗忘

    • 当新信息与旧信息冲突时,更新而非累加
    • 合并相似的记忆,避免冗余
    • 定期整理和压缩记忆库

3.4 行动模块

这是 Agent 的「手脚」,让它能够真正做事情。

行动模块的核心是 Function Calling(函数调用),这是目前最主流的方式。

简单来说,就是预先定义好一系列函数,比如搜索网页、查询数据库、发送邮件等,然后告诉大模型这些函数的作用和参数。

当用户提出需求时,模型会判断需要调用哪个函数,提取相应的参数,执行函数并获取结果。这个过程已经从最初的单次调用,进化到现在可以进行多步骤调用、并行执行、错误重试等复杂操作。

Anthropic 推出的 MCP(Model Context Protocol)协议,试图建立行动模块的统一标准。

MCP 采用服务器-客户端架构,工具提供方作为服务器,AI 应用作为客户端,通过标准化的协议进行通信。这种设计的好处是解耦和复用:AI 应用不需要知道工具的具体实现细节,一个 MCP 服务器可以同时服务多个 AI 应用。更重要的是,MCP 提供了统一的安全管理和权限控制机制,让行动模块的集成变得更加简单和安全。

安全性是行动模块最关键的考虑因素。

在 Manus 刚上线的时候就爆出一个问题,有人用提示词,让 AI Agent 打包了当前执行的环境的所有代码。

给 AI 执行能力就像给孩子一把剪刀,必须设置严格的安全边界。现代 Agent 通常采用多层防护:首先是沙箱环境,所有代码执行都在隔离的容器中进行,限制内存、CPU、网络访问;其次是权限管理,基于用户角色和具体场景动态分配权限;最后是审计日志,记录所有行动的执行情况,便于追溯和分析。这些措施确保 Agent 在帮助用户的同时,不会造成安全风险。

复杂任务往往需要多个行动的协调配合,这就需要工作流引擎来编排。比如”帮我分析竞品并生成报告”这个任务,可能需要先搜索竞品信息,然后提取关键数据,接着进行对比分析,最后生成可视化报告。工作流引擎负责管理这些步骤的执行顺序、处理步骤间的数据传递、应对执行失败等情况。高级的引擎还支持条件分支、循环执行、并行处理等复杂逻辑,让 Agent 能够处理更加复杂的任务。

行动模块的未来发展方向是更强的自主性。目前的 Agent 主要执行预定义的动作,但未来可能会具备动作发现和学习能力,能够自动发现新的 API、学习新的操作模式、甚至创造性地组合已有动作来完成新任务。另一个重要方向是与物理世界的交互,通过机器人或 IoT 设备执行物理动作。随着这些能力的提升,AI Agent 将真正从「会说」进化到「会做」,成为人类在数字世界和物理世界中的得力助手。

4. 当前的局限性

AI 有其局限性,了解这些局限性,对于合理使用和未来改进都很重要。

4.1 幻觉问题

这是所有基于大模型的 AI Agent 都面临的核心挑战。

Agent 可能会编造不存在的 API、虚构执行结果、或者对自己的能力过度自信。比如,当你要求 Agent 查询某个数据库时,它可能会返回看起来合理但实际上完全虚构的数据。

这种幻觉在连续多步骤的任务中会被放大,一个小错误可能导致整个任务链的崩溃。

更危险的是,这些幻觉往往很难被发现,因为它们在表面上看起来完全合理。虽然通过 RAG、工具调用验证等方法可以部分缓解,但彻底解决仍然是个开放性难题。

4.2 可靠性不足

AI Agent 的表现稳定性仍然是个大问题。

同样的任务,在不同时间执行可能得到不同的结果。

这种不确定性来源于多个方面:模型本身的随机性、上下文理解的偏差、外部环境的变化等。

在一些对可靠性要求高的场景,比如金融交易、医疗诊断、工业控制等,目前的 AI Agent 还远远达不到要求。

即使加入了重试机制、结果验证等保障措施,也只能提高而非保证可靠性。这导致在关键业务场景中,AI Agent 更多是作为辅助而非主导。

4.3 成本与效率

运行一个功能完善的 AI Agent 系统成本不菲。

首先是模型调用成本,特别是使用 GPT-4、Claude 等顶级模型时,每次交互都要花费不少钱。复杂任务可能需要多次模型调用,成本会快速累加。

其次是延迟问题,每次函数调用、每次推理都需要时间,一个看似简单的任务可能需要等待数十秒甚至几分钟。对于需要实时响应的场景,当前的 AI Agent 往往力不从心。

虽然可以通过模型蒸馏、缓存优化等手段降低成本,但在性能和成本之间找到平衡点仍然很困难。

4.4 安全与隐私挑战

AI Agent 需要访问大量数据和系统才能发挥作用,这带来了严重的安全隐私问题。

首先是数据泄露风险,Agent 可能无意中将敏感信息包含在给大模型的请求中,而这些数据可能被用于模型训练。

其次是提示注入攻击,恶意用户可能通过精心构造的输入操控 Agent 执行非预期的操作。

还有权限滥用问题,一个被赋予过多权限的 Agent 可能造成严重损害。

虽然业界正在开发各种防护措施,如差分隐私、安全沙箱、细粒度权限控制等,但攻防对抗仍在继续。

4.5 理解与推理的局限

虽然大模型展现出了惊人的能力,但 AI Agent 在深层理解和复杂推理方面仍有明显不足。它们往往只能处理相对直接的任务,面对需要长链条推理、创造性思维或深层次理解的问题时就会暴露短板。

比如,Agent 可能很擅长执行”帮我订一张机票”这样的任务,但如果要求”帮我规划一个考虑预算、时间、个人兴趣的完整旅行方案”,效果就会大打折扣。

此外,Agent 缺乏真正的常识推理能力,可能会提出一些违背基本常识的方案。即使是最新的 o1 模型,虽然推理能力有所提升,但距离人类水平的推理能力还有很大差距。

5. 写在最后

AI Agent 的发展才刚刚开始。虽然现在的技术还不完美,但进步的速度是惊人的。两年前,我们还在惊叹 ChatGPT 能够进行对话;现在,AI Agent 已经能够帮我们写代码、分析数据、制定计划了。

对于技术人员来说,现在是最好的时代。我们有机会参与到这场变革中,创造出真正有用的 AI Agent。但同时,我们也要保持清醒:AI Agent 是工具,不是魔法。它能够提高效率,但不能替代人类的创造力和判断力。

未来的世界,可能每个人都会有自己的 AI Agent 团队。就像现在每个人都有智能手机一样自然。

而现在,正是这个未来的开端。

以上。

代码生成之外:AI 编程对开发者思维的深层影响

AI 的浪潮正以前所未有的速度席卷着各行各业,而软件开发领域无疑是这场变革的风暴中心。从代码自动生成、智能调试到需求分析,从 Copilot 到 Cursor 等 IDE,AI 编程工具如雨后春笋般涌现,极大地改变了我们日常工作的逻辑。

面对 Copilot/IDE 们日益强大的能力,许多开发者或许感到兴奋,或许也夹杂着一丝焦虑:当 AI 能写代码、能查 Bug 时,我们开发者的核心价值将何去何从?

仅仅将 AI 视为提升编码效率的「高级自动补全」工具,是对这场深刻变革的误读。真正的挑战与机遇并存,它要求我们进行一次根本性的思维转变。如果仍然固守着传统的、以手动实现细节为主的工作模式,我们很可能错失 AI 带来的巨大红利,甚至在未来逐渐失去竞争力。这不再是简单地学习一个新工具,而是需要重塑我们的工作哲学和核心能力。

今天我们将聊一下 4 个关键的思维转变和实践框架

  • 「AI 优先」 的工作流整合
  • 「指挥官思维」 的战略主导
  • 「向 AI 学习」 的持续进化态度
  • 构建高效「人机协同」复合框架的必要性

1. AI 优先

AI 优先是重新定义开发工作流的战略基石。

1.1 核心内涵:从默认手动到优先 AI 协作

「AI 优先」并非仅仅倡导使用 AI 工具,而是一种根本性的工作流程哲学和问题解决范式的转变。

其核心在于,当我们启动任何一项开发过程中的任务——无论是需求分析、架构设计、编码实现、代码审查、联调测试、用例生成、文档撰写,还是技术学习与研究——首要的、默认的思维步骤是主动评估:「 AI 在此环节能扮演何种角色?如何利用 AI 来提升任务执行的效率、质量或创新性?」 这与传统模式形成鲜明对比,后者往往默认以纯粹的人力手动操作为起点,仅在遇到特定瓶颈时才考虑引入自动化或辅助工具。AI 优先将 AI 从「备选项」提升到了「首选项」,要求我们在流程伊始就将其视为潜在的核心协作者。

1.2 思维转变的深度体现

  • 主动整合  vs. 被动应用 :

    • 深度解析: 这标志着我们与技术生态关系的质变。过去,我们可能在 IDE 中使用代码补全,或在遇到难题时搜索特定库的 AI 辅助工具。这是一种响应式、孤立式的应用。而「AI 优先」要求前瞻性、系统性地思考如何将 AI 能力内嵌到整个开发流程中。我们不再是被动等待工具推送建议,而是主动设计包含 AI 交互点的新型工作流。这需要我们具备流程再造的意识,识别出 AI 最具潜力的介入点,并优化人机交互模式。
    • 战略意义: 将 AI 视为开发环境的一等公民,而非外挂插件。这种主动整合是最大化 AI 价值、构建复合智能开发体系的前提。
  • 效率导向 & 认知资源重分配:

    • 深度解析: AI 优先的直接目标是显著提升开发效率,但这并非终点。通过将重复性、模式化、信息密集型的任务(如生成样板代码、查找 API 细节、初步代码审查、基础测试生成)委托给 AI,我们得以将宝贵的认知资源 从繁琐的底层细节中解放出来。这种解放并非为了减少工作量,而是为了战略性地聚焦于更高价值的活动,这与「从细节实现到架构设计与问题分解」的转变一脉相承。
    • 战略意义: 提升的不仅是速度,更是我们价值的跃迁。我们能投入更多精力于理解业务需求、进行复杂的系统设计、处理非结构化问题、进行创新性探索以及做出关键性技术决策,这些是 AI 短期内难以完全替代的核心人类优势。
  • 工具熟练度 & 能力边界认知:

    • 深度解析: 实践「AI 优先」绝非盲目依赖。它要求我们不仅熟练掌握各种 AI 开发工具(如 Copilot, ChatGPT, Cursor, 各类 AI 驱动的测试/调试平台等)的具体操作,更要深刻理解其能力边界、适用场景、潜在偏见和局限性。这包括:知道何时 AI 的建议可靠,何时需要批判性审视;理解不同模型在不同任务上的表现差异;掌握有效的提示工程 技巧以引导 AI 产出高质量结果;并了解 AI 输出可能存在的安全风险或合规问题。
    • 战略意义: 熟练度意味着精准驾驭,意味着我们需要成为聪明的「AI 用户」,能够根据任务特性选择最合适的 AI 工具和交互策略,并对结果进行有效验证和整合,确保最终产出的质量和可靠性。这是一种新的核心技能。

1.3 实践示例

「AI 优先」在实践中并非意味着所有步骤都由 AI 完成,而是以 AI 作为起点

  • 用 AI 初始代码框架: 不仅是生成基础结构,更可以利用 AI 快速探索多种实现方案,或根据特定设计模式生成初步代码,极大加速原型构建和技术选型验证。
  • 让 AI 解释错误信息或提出修复建议: 超越简单的错误信息查找,可以要求 AI 结合上下文代码分析潜在的根本原因,甚至预测可能相关的其他问题区域,提供更深层次的洞察。
  • 使用 AI 生成单元测试: 不仅是覆盖基础路径,可以利用 AI 探索边缘情况和异常输入,提升测试覆盖率和鲁棒性,甚至根据代码变更智能推荐需要更新的测试用例
  • 通过 AI 快速学习一个新的 API 或库的用法: 从简单的用法查询,到要求 AI 提供示例项目、对比相似库、解释设计哲学、甚至模拟一个小型应用场景,实现更高效、更深入的即时学习。
  • 在设计阶段,询问 AI 关于不同架构模式的优缺点: 将 AI 作为技术顾问或「虚拟专家」,快速获取关于不同架构选择(如微服务 vs. 单体,不同数据库选型)在特定场景下的利弊分析、潜在挑战、行业最佳实践等信息,辅助决策制定。

「AI 优先」是一种要求我们在思维层面将 AI 视为默认协作者,在实践层面主动将 AI 整合进工作流程,并以提升效率和聚焦高价值活动为导向,同时具备对 AI 工具的深度理解和批判性使用能力的方法论。采纳「AI 优先」意味着我们正从传统的「工匠」角色,向着更具战略眼光的「技术架构师」和「智能系统构建者」进化。

2. 指挥官思维

指挥官思维是驾驭人机协同的战略核心。

2.1 核心内涵:从执行者到战略决策者的角色升维

「指挥官思维」定义了我们在与 AI 深度协作环境下的核心定位与责任模型

尽管 AI 工具(如大型语言模型、AI 编程器)展现出强大的自动化执行能力,我们并非沦为被动的指令接收者或简单的工具操作员,而是必须承担起战略主导者的角色。

这种思维模式要求我们能够掌握全局,负责设定目标制定实施策略进行任务的有效分解与委派设计并下达高质量、精确的指令(即提示工程)对 AI 的产出进行严格的审视与评估基于评估结果做出关键技术决策,并最终对项目或产品的整体质量、安全性、性能及业务价值承担最终责任

在这个模型中,AI 是能力强大的「智能执行单元」或「高级参谋」,提供信息、生成方案、执行具体任务,但最终的判断权、决策权和方向掌控权牢牢掌握在我们手中。

2.2 思维转变的深度体现

  • 战略高度 vs. 细节沉溺:

    • 深度解析: 这与我们从「关注具体代码行实现」向「聚焦架构设计与复杂问题分解」的核心转变完美契合。「指挥官」的首要职责是理解并服务于业务目标 和系统级的非功能性需求(如可扩展性、可靠性、安全性、可维护性)。他们关注的是「战役」的胜利(例如,交付具有市场竞争力的产品、构建高可用的系统等等),而不是纠结于每一行代码的具体写法(这是可以有效利用 AI 的地方)。这意味着我们需要具备更强的系统思维 能力,能够从宏观层面规划技术蓝图、识别关键风险、权衡不同的架构选项。
    • 战略意义: 这种视角的提升使得我们能够利用 AI 处理大量的实现细节,从而将精力集中在设计决策、技术选型、风险管理和确保长期价值等更具战略意义的工作上,这些是决定项目成败的关键因素。
  • 结果导向与批判性思维 vs. 盲目信任:

    • 深度解析: 「指挥官」的核心职责是确保任务目标的达成,并保证最终成果符合预定的质量标准。这直接对应了我们从「从零构建」到「侧重验证、调试与优化」的转变。鉴于当前 AI(尤其是生成式 AI)输出的非确定性 和潜在的「幻觉」、偏见、安全漏洞或性能陷阱,我们必须运用高度的批判性思维 和怀疑精神。对 AI 生成的代码、设计建议、测试用例等「战果」,需要进行多维度、深层次的审视:不仅要验证其功能正确性,还要评估其代码质量、可读性、效率、安全性、是否符合项目规范和最佳实践。
    • 战略意义: 这是确保 AI 协作安全、有效的关键保障。缺乏批判性思维的盲目采纳可能导致技术债、安全风险甚至项目失败。「指挥官」必须扮演好质量守门人 的角色,利用自己的专业知识和经验对 AI 的贡献进行筛选、修正和确认。
  • 有效沟通(提示工程) vs. 模糊指令:

    • 深度解析: 「指挥官」向 AI 下达指令的过程,本质上是一种高精度的人机交互和知识传递。高质量的 Prompt 不仅仅是提出问题,而是需要精确定义任务目标、明确上下文信息、设定约束条件、提供示例、甚至指定输出格式。这要求我们具备优秀的需求分析和表达能力,能够将复杂的意图转化为 AI 可理解、可执行的清晰指令。这门新兴的技能——提示工程——正成为「指挥官思维」下的一项核心技术能力。
    • 战略意义: 指令的质量直接决定了 AI 输出的质量和效率。有效的沟通能够最大限度地发挥 AI 的潜力,减少反复试错和无效输出,从而显著提升协作效率。精通 Prompt Engineering 能够更精准地「指挥」AI,达成预期目标。

2.3 实践示例

「指挥官思维」在实践中转化为一系列具体的行动要求:

  • 清晰地定义 AI 任务目标与约束条件: 不仅是「写一个登录函数」,而是「使用 OAuth 2.0 协议,实现一个安全的、支持多种第三方登录(Google, GitHub)、并符合公司现有 Python 代码规范和日志标准的登录模块」。明确的边界和要求是高质量输出的前提。
  • 将复杂问题分解为 AI 可处理的子任务: 识别出大型任务中适合 AI 处理的模块化部分(如数据解析、API 调用封装、特定算法实现),设计清晰的接口,然后分别委派给 AI,最后由我们进行整合。这体现了模块化设计和任务管理能力。
  • 提出精确、有效的 Prompt: 运用结构化 Prompt、提供背景知识、明确角色扮演(如「假设你是一位资深安全专家…」)、要求解释推理过程等高级技巧,引导 AI 产出更符合需求的、更高质量的内容。
  • 批判性地审查 AI 的输出,识别潜在问题: 进行代码走查 (code review)、静态分析、动态测试、安全扫描,并结合自身领域知识判断方案的合理性、潜在风险和长期影响。绝不直接复制粘贴未经验证的代码
  • 整合 AI 的贡献,并做出最终的技术决策: 将 AI 生成的部分与人工编写的代码或其他系统组件有机结合,解决集成中可能出现的问题。基于对整体架构、业务需求和团队能力的综合考量,做出最终的技术选型、设计方案和实现路径的决策。我们始终是技术路线的最终拍板者和负责人

「指挥官思维」是我们在 AI 时代保持主导地位和核心价值的关键。它要求我们超越纯粹的技术执行,提升到战略规划、任务设计、质量控制和决策制定的高度。通过有效地设定目标、分解任务、精准沟通(Prompting)、严格评估和最终决策,我们能够驾驭强大的 AI 能力,将其作为实现更宏大目标、创造更高价值的有力工具,从而在人机协同的新范式中扮演不可或缺的领导角色。

3. 向 AI 学习

向 AI 学习是构建人机协同的认知增强回路

3.1 核心内涵:从工具利用到知识伙伴的认知定位转变

「向 AI 学习」代表了一种深刻的认识论转变,它要求我们将 AI 从单纯的任务执行工具 提升为动态的知识伙伴 和个性化的学习资源

其核心在于,我们在与 AI 交互的每一个环节——无论是获取代码建议、调试错误、探索设计方案,还是理解复杂概念——都保持一种主动的学习姿态。这意味着不仅要利用 AI 的输出来完成当前任务,更要有意识地从交互过程、AI 生成的内容及其背后的逻辑解释中提取、内化新的知识、技能、方法论或甚至不同的思维视角。这是一种将日常开发工作转化为持续学习和认知增强机会的态度。

3.2 思维转变的深度体现

  • 持续学习与适应性的加速器:

    • 在技术栈日新月异、知识半衰期急剧缩短的当下,我们面临着前所未有的学习压力。传统的学习模式(如阅读文档、参加课程)往往存在时滞性或不够个性化。「向 AI 学习」直接关联并赋能了「从掌握特定语言/框架到理解核心概念与快速学习」这一关键转变。AI 可以作为一个即时响应、情境感知的学习引擎,根据我们当前遇到的具体问题或技术挑战,提供精准、个性化的知识输入。它能迅速填补知识空白,加速对新技术的理解和掌握,从而极大地提升我们的**适应性商数 (AQ)**。

    • 将学习过程无缝融入日常工作流,变被动追赶为主动适应,使我们能够更敏捷地跟上技术前沿,保持长期的专业竞争力。

  • 拓展认知边界与激发创新思维:

    • 我们的知识和经验往往受限于个人背景、项目经历和信息接触范围。而 AI,特别是基于大型模型的 AI,其训练数据涵盖了极其广泛和多样化的知识语料库。当我们就某一问题向 AI 寻求解决方案时,AI 可能提供多种不同的实现路径、引入我们不熟悉的库或框架、或者应用某种新颖的设计模式。这种接触异质性信息 的过程,本身就能有效打破思维定势,拓展我们的技术视野。
    • AI 成为了一个创新的催化剂。通过展示不同的可能性,即使 AI 的某些建议并非最优或完全适用,也能激发我们产生新的想法,促进“创造力与创新思维”的发展,从而在解决问题时拥有更丰富的策略储备。
  • 深化原理理解与构建心智模型:

    • 仅仅复制代码或接受建议而不求甚解,无法带来真正的能力提升。「向 AI 学习」强调要利用 AI 的解释能力。当 AI 生成一段代码、推荐一个架构或诊断一个错误时,主动追问「为什么」——「这段代码的底层逻辑是什么?」、「推荐这个库基于哪些权衡考量?」、「这个错误发生的根本原因是什么?」。通过引导 AI 进行逐步推理 或概念阐释,我们可以更深入地理解技术背后的原理、设计哲学和最佳实践,从而构建更准确、稳固的心智模型
    • 从「知其然」到「知其所以然」的转变,是区分普通开发和资深专家的关键。通过 AI 辅助深化理解,我们能够更快地掌握技术的精髓,提升独立解决复杂问题的能力,并做出更明智的技术决策。

3.3 实践示例

将「向 AI 学习」融入实践,意味着采取一系列主动的认知行为:

  • 将 AI 作为首要信息源: 在遇到不熟悉的技术术语、API 用法或编程范式时,优先向 AI 发起探询式提问,利用其快速响应和整合信息的能力。
  • 利用 AI 进行方案比较分析: 要求 AI 对同一问题提供多种解决方案(例如,使用不同的算法、库或设计模式实现同一功能),并明确要求其分析各自的优缺点、适用场景和性能权衡,以此培养自身的评估能力和决策水平。
  • 代码考古与模式识别: 仔细研究 AI 生成的代码,特别是其中包含自己不熟悉或感觉「新颖」的语法、库调用或设计结构的部分。将其视为学习地道用法 或高级技巧 的机会。
  • 追问「为什么」——寻求解释与论证: 不满足于 AI 给出的答案,持续追问其生成逻辑、推荐依据或诊断原理。例如,「请解释你为什么选择在这里使用异步处理?」或「这个错误信息背后可能涉及哪些系统组件的交互?」
  • 利用 AI 进行知识重构与整合: 在学习一个新领域后,可以要求 AI 帮助梳理知识体系、生成概念图、总结关键要点或创建速查表,利用 AI 的结构化能力巩固和组织所学知识。

「向 AI 学习」是一种将人机交互从单纯的任务执行提升为持续认知增强过程的关键思维模式。它要求开发者以主动、探究、批判的态度,将 AI 视为一个永不疲倦、知识渊博的学习伙伴。

通过有意识地利用 AI 的信息整合、多样化方案生成和解释能力,我们可以显著加速学习进程、拓宽技术视野、深化原理理解,最终在快速变化的技术环境中保持领先地位,实现个人能力的持续进化和增值。这不仅关乎技能提升,更关乎构建一种面向未来的、与智能共生的学习生态。

4. 构建「人机协同」的复合思维框架

构建「人机协同」的复合思维框架是驾驭复杂性的智能协作新范式。

4.1 核心内涵:超越工具使用,构建结构化的智能协作体系

构建「人机协同」的复合思维框架,并非简单地倡导与 AI 工具互动,而是旨在建立一套系统化、结构化、且动态适应的思维与行动模式,以应对日益复杂的开发任务和决策场景。

其核心前提是深刻认识到当前 AI(尤其是大型模型)与人类智能的互补性:AI 在处理大规模数据、识别模式、执行标准化、高通量任务方面展现出超凡能力;而人类则在理解模糊性、进行深度推理、运用常识与领域知识、把握上下文、进行价值判断、承担伦理责任以及处理非结构化、创新性问题方面拥有不可替代的优势。

因此,该框架的目标是设计并实践一种能够最大化人机双方优势、规避各自短板的协同工作体系,确保在 AI 深度参与的背景下,依然能高效、高质量、负责任地达成目标。

4.2 框架三大支柱

4.2.1 问题拆解能力

问题拆解能力是指将模糊意图转化为可执行智能任务。

这是人机高效协同的关键起点与接口。面对诸如「优化用户体验」或「构建一个新的推荐系统」这类高层次、往往带有歧义的业务需求时,我们必须运用深刻的领域理解、系统分析能力和逻辑思维,将其层层剖析、具体化,转化为一系列边界清晰、输入输出明确、AI 模型能够理解并着手处理的子任务。这个过程不仅是对复杂性的管理,更是将我们的抽象智慧「编译」成机器可执行指令的关键步骤。

这一能力的意义在于有效弥合人机之间的认知鸿沟。精确的子任务定义能够显著提升 AI 工具的应用效率和产出质量,避免因指令模糊导致的无效计算或结果偏差。同时,良好的问题拆解使得大型复杂项目变得可管理、可追踪、可并行化,开发者可以策略性地将某些定义良好的子任务(如数据清洗、特定算法实现、API 接口生成)委托给 AI,从而将自身精力聚焦于更高层次的架构设计、核心逻辑创新和跨模块集成上,实现整体研发效能的倍增。

实践中,这意味着我们需要像一位经验丰富的项目经理或系统架构师那样思考。例如,将「构建推荐系统”」解为:用户行为数据收集与清洗(可部分利用 AI)、特征工程(人机结合,AI 提取初步特征,人筛选优化)、候选集生成(利用 AI 实现多种召回策略,如协同过滤、内容相似度)、排序模型训练(利用 AI 平台进行模型选择与调优,人设定评估指标与业务目标)、A/B 测试框架搭建(AI 生成基础代码,人设计实验方案)以及最终效果评估与迭代(人主导分析,AI 辅助数据可视化)。每一步都明确了目标、输入、预期输出及人机角色,构成了协同的基础。

4.2.2 批判性验证意识

批判性验证意识是确保人机协同成果安全、可靠、负责任的核心保障。

鉴于当前 AI(尤其是生成式模型)固有的「幻觉」、潜在偏见、知识局限性以及对上下文理解的不完美性,其输出的内容——无论是代码片段、设计文档、测试用例还是分析报告——都绝不能被视为绝对真理而直接采纳。我们必须内化一种 「默认不信任,必须验证」的专业态度,将自己定位为 AI 产出的最终质量守门人

这种意识要求我们运用自身的专业知识、逻辑推理能力、测试技能和行业最佳实践,对 AI 的「贡献」进行全面、深入、多维度的审视。这不仅包括检查功能是否正确、代码是否高效,更要评估其安全性(是否存在漏洞)、可维护性(是否易于理解和修改)、合规性(是否符合规范标准)、鲁棒性(边界情况处理如何)以及是否存在潜在的伦理风险或偏见。缺乏严格验证的盲目依赖,可能引入难以察觉的技术债、安全后门,甚至导致系统性失败,其后果远超 AI 带来的效率提升。

在实践层面,这意味着一套系统化的验证流程。例如,对 AI 生成的代码,需进行严格的 Code Review、单元测试、集成测试、静态代码分析、安全扫描和性能基准测试;对 AI 提供的技术方案,要评估其长期影响、可扩展性及与现有系统的兼容性;对 AI 生成的分析报告,需核查数据来源、验证关键论断、审视逻辑链条的完整性与合理性。这种批判性验证不仅是技术行为,更是我们专业精神和责任担当的体现,是构建可信赖 AI 应用的基石。

4.2.3 动态协作模式

动态协作模式强调人机协同并非固定模板,而是一种需要根据具体情境灵活调整的交互策略。

我们需要具备敏锐的情境感知能力和判断力,根据任务的性质(如标准化 vs. 创新性)、复杂度、风险等级、所需创造力程度、可用 AI 工具的能力边界以及时间限制等因素,动态地选择最合适的人机角色分配和互动方式。这要求我们对自身优势和 AI 能力有清晰认知,知道何时应该由人主导,何时可以放手让 AI 发挥,何时需要紧密的人机迭代。

这种动态调整的战略价值在于实现整体效能与质量的最优平衡。在处理常规、重复性高的任务时,可以采用「AI 辅助执行」模式,最大化效率;在面对需要深度分析和复杂决策的问题时,则切换到「AI 辅助决策」模式,利用 AI 的信息处理能力辅助人类判断;对于需要高度创新和战略规划的任务,则采用「人类主导 + AI 执行」或「探索性伙伴关系」模式,确保人类的创造力和智慧在关键环节发挥主导作用,同时利用 AI 加速探索和实现过程。这种灵活性使得团队能够更有效地配置资源,更好地管理风险,并更具弹性地应对各种挑战

实践中,我们需要掌握一个协作模式,并学会在其间自如切换。例如,编写单元测试,可能初期让 AI 大量生成(AI 辅助执行),然后由人进行细致审查和补充边缘案例(批判性验证);设计新功能架构时,可能先由人提出核心思路和约束,然后让 AI 提供几种备选方案及其优劣分析(AI 辅助决策),最终由人拍板并指导 AI 生成部分实现代码(人类主导 + AI 执行);探索一个全新的技术领域时,则可能与 AI 进行反复对话、头脑风暴,共同迭代想法(探索性伙伴关系)。熟练掌握并运用这些动态模式,是我们从「AI 使用者」进化为「AI 协奏者」的关键标志。

构建「人机协同」的复合思维框架,是我们在 AI 时代实现能力跃迁和价值重塑的关键。它要求我们超越简单的工具使用者角色,成为一个能够战略性地分解问题、批判性地验证结果、并动态地调整协作模式的智能系统指挥者和设计者。

掌握这一框架,意味着能够有效地驾驭 AI 的力量,将其融入到创造性的、高质量的、负责任的价值创造过程中,从而在人机共生的未来中占据核心地位。这不仅是一种方法论,更是一种面向未来的核心素养和战略智慧

AI 编程时代并非要取代程序员,而是要求程序员进化。我们需要从纯粹的代码编写者,转变为更高级的思考者、设计者、协作者、验证者和创新者。思维层面需要变得更宏观、更具批判性、更灵活、更关注价值创造,并始终保持学习和适应的心态。

以上。

关于 AI 解决问题能力的思考

我们一直有个想法,让 AI 能自动帮我们完成我们想要做的事情,让自动驾驶,自动写文章,自动做饭,自动操作设备,自动……

随着 AI 的发展,这个想法越来越接近现实,但是还没有实现。

大型语言模型已经具备了强大的知识掌握能力和语言表达能力,能够进行复杂的对话、代码生成、逻辑推理,甚至模拟某种程度的「思考过程」。但现实是,从「能说会道」到「能完成任务」之间,还有一段不小的距离。

我们不妨换个角度想一想:当我们让一个人类来完成一项任务时,我们通常会先给出一个大致的目标,然后逐步明确问题的边界、操作的步骤、可用的工具以及判断结果是否合格的标准。

这个过程,本质上就是在界定问题范围。而问题范围的界定程度,直接决定了完成任务的难易程度。

举个例子:

  • 如果你让一个人「帮我查一下明天的天气」,这个问题的边界非常清晰:地点、时间、数据源、输出格式都相对明确。
  • 但如果你说:「帮我设计一个新产品并提出完整的商业策略」,这个任务的边界就非常模糊:用户是谁?目标市场在哪里?预算是多少?成功的标准是什么?每个维度都可能引出一连串子问题。

同样的道理也适用于 AI。当前的 LLM 和 Agent 系统,在处理边界清晰的问题时表现良好,比如问答、摘要、代码填空等。但一旦任务的边界开始模糊、动态、依赖外部反馈,AI 的表现就会迅速下降。

我们可以将任务的难度,理解为 AI 需要「摸清楚问题边界」的程度:

  • 边界清晰:问题的输入、输出、规则都明确,AI 可以像填空题一样一步步推出来。这类任务是目前AI的强项。
  • 边界部分明确:有一定规则和目标,但需要自己补充部分前提或假设,比如“帮我写一段支持用户登录的代码”,AI 需要决定使用什么框架、是否带界面等等。
  • 边界高度不确定:如「帮我规划一次创业项目」,AI 需要从目标澄清开始,到路径选择、资源调度、自我评估等多个层面进行处理,这时候它往往会陷入混乱。

换句话说,问题边界越模糊,AI 所要面对的「可能性范围」就越大。 如果不加限制,它就像在一片完全未知的森林里找路,既不知道出口在哪,也不知道有没有陷阱。于是它要么乱走一通,要么干脆原地画圈,给出一些看似合理却走不通的「方案」。

人类面对复杂或模糊的问题时,常常也不是立刻给出答案,而是先界定问题范围

  • 这个问题的关键变量是什么?
  • 我需要哪些信息才能做出决策?
  • 能不能先试着完成一个最小版本,看看方向是否正确?

这种思考方式其实是一种认知上的「范围压缩」能力,目的是在面对信息不完备或目标不清晰时,先把问题压缩到一个可以行动的范围,再逐步展开。

相比之下,当前的 LLM 与 Agent 系统,即便具备了强大的生成能力和任务执行能力,在主动界定问题范围上,仍显得笨拙甚至「无意识」。

常见的三个表现:

  1. 缺乏信息优先级判断能力:LLM 接收到一个模糊任务时,往往无法判断哪些信息是「必须现在明确」的,哪些可以「先搁置再处理」。它通常会试图一次性填满所有空白,而不是按优先级逐步推进。

  2. 不具备「最小可行路径」意识:在面对一个复杂任务时,LLM 更倾向于直接生成一个看似完整的解决方案(例如一个功能齐全的系统架构或一篇结构完整的长文),而不是像人一样,先试着完成一个最小可行版本(MVP),再逐步扩展。

  3. 无法识别自己的「知识盲区」:更关键的是,LLM 并不知道自己不知道。它不会像人那样产生「这个问题我不确定,我需要求证」的元认知反应,而是继续生成看似合理但实则无效甚至自相矛盾的内容。这种「自信且错误」的输出在真实任务中极具风险。

新的 Agent 架构正在尝试解决这一问题。这类系统强调:

  • 多阶段任务拆解:将一个复杂任务拆成多个阶段,每个阶段都有明确的子目标与预期输出;
  • 反思与自检机制:在生成每一步结果后,模型会对其进行「自我评估」,判断是否合理、是否遗漏、是否需要重试;
  • 信息明确性评估:模型会尝试识别「哪些信息还不足以支持下一步推理」,并主动提出请求或假设补全;
  • 动态路径调整能力:在发现路径错误时,能够中止当前链条,回退到上一步重新规划,而不是「硬着头皮走下去」。

这些能力构成了模型的「思维闭环」,让其在某种意义上具备了「界定问题范围」的雏形。

在真实世界中,任务从来不是开门见山、结构清晰的:

  • 用户可能只给出一个模糊的目标(如「帮我设计一个商业模式」);
  • 过程中会出现信息缺失、中断、反馈变化;
  • 执行中需要不断判断「我走的方向是否还正确」。

要应对这些情况,AI 不仅需要处理信息的能力,更需要处理「信息不足」时的自我调节能力

这个问题的研究,已经引起了学术界的广泛关注。有一些观点::

  • 草图策略:让 AI 在面临复杂问题时,不再一次性给出答案,而是先生成多条解决思路的「草图」,再将其分解为子任务,逐步执行、评估、修正。这种方式的核心价值在于:先建立多个「问题理解的版本」,再逐步收敛

  • 「树搜索」+「奖励驱动」。让 AI 在面对不确定任务时,能够像爬山一样,不断生成多个路径,并根据「每一步的效果」来评估是否继续深入。这种「试探 + 筛选」的方式,帮助模型更加高效地界定问题边界,从而避免陷入无效探索。

  • 仅作为助手:让 AI 作为辅助的思维工具,用于生成备选方案、补全缺失要素、解释已有路径等。

回到我们当前,作为一个 AI 的使用者,我们能做什么呢?

  1. 提出更好的问题:我们可以通过更精准的问题表述来帮助 AI 更好地工作。这意味着在提问时,不仅要描述目标,还要主动界定边界条件:具体背景是什么?可用资源有哪些?有哪些限制条件?预期的输出格式是什么?这种前置界定能显著提高 AI 的输出质量。同时,我们也可以采用渐进式引导的方式,先让 AI 完成一个小范围的子任务,验证其理解是否正确,再逐步扩展到更复杂的任务范围,形成一种「小步快跑」的合作模式。

  2. 构建人机协作的闭环流程:有效的人机协作应该是一个闭环流程,而非单向输入输出。这意味着用户需要对AI的输出进行及时评估,提供明确的反馈,指出哪些方向是正确的,哪些需要调整,哪些问题仍然存在。通过这种持续的反馈修正机制,AI 能够逐步调整其对问题边界的理解。特别是对于复杂任务,我们可以建立人在回路的工作模式,即AI负责生成备选方案和细节执行,人类负责决策方向和质量把关,形成优势互补的协作关系。

  3. 适应 AI 的认知局限性:理解并适应AI的认知局限,是高效使用 AI 的关键。目前的 AI 在处理抽象概念、因果关系和长期规划时仍有明显短板。因此,我们可以主动将复杂任务拆解为一系列明确边界的子问题,让 AI 在其擅长的领域发挥作用。同时,对于涉及价值判断、创新突破或高风险决策的任务,我们需要保持审慎态度,将AI视为辅助工具而非决策者。认识到这一点,有助于我们在期待与现实之间找到平衡点,避免对 AI 能力的过度期待或低估。

以 AI 编程为例,当前比较好的实践是:

经验先行(包括自身经验或行业最佳实践),预先为 AI 构建整体架构,并将复杂任务拆解为一系列边界清晰、认知负载适中的子任务。每一个子任务都应在模型的能力边界之内,既能被准确理解和执行,又能稳步推动整体目标的进展,避免陷入回溯式的反复试错与路径偏离。

以上。