标签归档:AI

如何面对「AI 焦虑」

昨天看到网友 yuekun 发的一个消息,大概如下:

我决定“拉黑”Al 了。。。

AI变化太他* 快了,这两天不断被 Al新闻洗脑越看越焦虑,越焦虑越想看,我还在追求那该死的确定性

我决定拉黑 AI 内容了,因为这些都他* 是【快速贬值】的内容之所以说是快速贬值因为!

1个星期后没人记得今天发生了什么别说一个星期,3天前AI发生了什么还人记得吗?

能有 AI 焦虑的已经是比较优秀的人了,已经走在大家的前面了。

最近这几年,大家的工作,生活中已经有越来越多的 AI 在进入。

  • 工作上,同事已经开始用豆包/KIMI/灵宝/DeepSeek 写方案、改文案、写代码,效率惊人;
  • 网络上,AI 绘画、AI 剪辑、AI 写作层出不穷,创意产业正在被改写;
  • 朋友圈里,已经有人靠「AI+副业」赚到了第一桶金;

可能还会有这样的想法:「我会不会被 AI 取代?」、「我还能干什么?」、「未来还有我的位置吗?」

如果你有这样的焦虑感,放心,你不是一个人!

这一轮 AI 革命,以前所未有的速度冲击着我们的认知、工作与生活。今天这篇文章,我们不谈高深的技术原理,也不喊口号。我们只聊一个问题:

面对 AI 焦虑,我们该怎么办?

什么是「AI 焦虑」?

「AI 焦虑」是一种新型的社会心理状态。它并不是因为 AI 本身带来了什么直接伤害,而是因为:

  • 不确定感——不知道 AI 会发展到什么程度;人类天生害怕未知。AI技术发展的不可预测性让我们感到失控和无力。我们无法确切预见五年后的工作环境会是什么样子,这种不确定性是焦虑的主要来源。
  • 被替代感——担心自己所掌握的技能很快就会被机器超越;许多人将自己的价值与工作紧密联系在一起。当AI挑战我们的专业领域,也就挑战了我们的自我认同。「如果AI能做得比我好,那我的价值在哪里?」这个问题困扰着大家。
  • 无力感——感到自己跟不上技术变化的节奏;对于不熟悉 AI 技术的人来说,理解和适应这些变化尤为困难。这种知识差距加剧了焦虑感,让人觉得自己被时代抛弃。
  • 落后感——看到别人借助 AI 成长飞快,自己却无从下手。

换句话说,AI 焦虑,其实是技术飞跃带来的认知落差,也是时代变化下的身份危机

这并不是第一次。

  • 蒸汽机时代,工人们担心机器取代人力;
  • 电气化时代,马车夫开始失业;
  • 互联网时代,传统媒体人不得不转型自媒体;
  • 今天,轮到白领与知识工作者,直面 AI 的挑战。

每一次技术革命,都伴随着阵痛、焦虑与重新定位。

AI 焦虑,不是「你不够努力」,而是你活在一个剧烈变动的时代

AI 到底会不会「抢走我们饭碗」?

我们先来看一个事实:

AI 不会取代你,但会取代不会用 AI 的你。

这句话看似鸡汤,实则是现实。AI 的出现,并不是「人类 vs 机器」的对抗,它更像是一场「人类 + 机器」的协作革命。它和人类在当前还存在 「工具理性」到「价值理性」的鸿沟

AI的绝对优势领域

  1. 超大规模信息处理
    数据清洗与结构化:可实时解析百万级非结构化数据(如电商评论情感分析、医疗影像归档)
    概率推演引擎:基于历史数据预测股票波动率(误差率<1.2%)、疫情传播模型构建
    标准化流程执行:银行反洗钱系统日均扫描2000万笔交易,准确率99.97%

  2. 确定性规则下的精准输出
    代码生成:Cursor 辅助完成超6 0% 的函数级编程任务
    模板化内容生产:1 分钟生成符合 AP 格式的上市公司财报摘要
    工业级重复操作:汽车焊接机器人连续工作 2000 小时无误差

  3. 多模态感知增强
    跨媒介转化:将设计师手稿自动转为Blender三维模型
    环境适应性处理:会议录音实时降噪并生成带章节标记的文本纪要

AI的认知天花板

  1. 情感价值创造
    • 无法真正理解《红楼梦》中林黛玉「冷月葬花魂」的悲剧美学意象
    • 心理咨询时仅能套用 DSM-5 标准,无法捕捉来访者微表情中的绝望

  2. 非确定性系统整合
    • 制定企业转型战略时,无法平衡股东诉求、员工情绪与政策风险
    • 设计城市更新方案时,难以协调文物保护与商业开发的文化冲突

  3. 元认知突破创新
    • 可生成 100 种咖啡包装设计,但无法像原研哉通过「无印良品」重新定义消费哲学
    • 能复现爱因斯坦相对论公式,但无法诞生「时空弯曲」的颠覆性假设

  4. 伦理情境判断
    • 面对自动驾驶「电车难题」时,算法无法承载不同文明对生命价值的权重差异
    • 处理医疗资源分配时,缺乏对弱势群体生存权的道德勇气

换句话说:

「AI是卓越的『执行者』,人类是不可替代的『决策者』」

  • 执行维度:海量数据清洗、模式化输出、物理规则明确的任务
  • 决策维度:情感共鸣、复杂系统博弈、伦理价值抉择、范式革命创新

因此,AI 会替代一部分工作,但也会催生大量新的岗位,比如:

  • Prompt 工程师(AI 提示词设计师);
  • AI 教练(帮助企业训练专属 AI);
  • AI 辅助创作者(人机协作);
  • AI 伦理与治理专家;
  • 数据标注、清洗、优化人员……

过去 3 年,AI 技术已经催生出许多新的职业岗位,这一趋势还在加速中。

为什么你会特别焦虑?

有这样一个现象:

越是知识密集型、创意型的行业,从业者越容易感到 AI 焦虑。

为什么?

因为大家原本以为,AI 最难的是「脑力劳动」,结果没想到 AI 写得比人快、画得比人好、剪得比人准。

一夜之间,原本「吃香」的技能变成了「谁都可以」的工具。

套在开发逻辑上,有人称之为「技术平权」

于是,很多人开始怀疑:

  • “我的核心竞争力还存在吗?”
  • “我学的东西还有价值吗?”
  • “再学也赶不上 AI 的更新速度啊……”

这里有一个心理机制很关键:

AI 打破了我们对「专业性」的想象。

过去,一个人要成为专业人士,可能需要 10 年学习与积累。但今天,AI 几秒钟就能模仿出一个专业人士的成果。这种落差感,带来的不只是焦虑,更是身份的崩塌感

但我们必须意识到:

AI 是工具,不是目的。你不是在输给 AI,而是输给了不会使用 AI 的自己。

如何正面应对 AI 焦虑?

说了这么多,我们终于要聊关键部分:应对之道

1. 从抗拒到接纳:停止「逃避感」

很多人焦虑的根源在于:

  • “我不想碰 AI,它太复杂”;
  • “我再怎么学,也学不过 AI”;
  • “我现在还没空,等将来再说”。

但事实是:你越晚接触 AI,门槛就越高。

AI 的学习曲线并不陡峭,但它在快速演进。你今天花 5 小时学习 ChatGPT,可能比你明年花 50 小时还更有效。

第一步,是接纳它的存在,就像你曾经接纳智能手机、接纳微信、接纳短视频一样。

2. 从被动到主动:开始「有手感」

我们不需要成为 AI 专家,但我们必须成为 AI 用户。

从今天起:

  • 用 豆包/KIMI/元宝/DeepSeek 帮你写一封邮件;
  • 用 Midjourney 或 DALL·E 画一张图;
  • 用 Notion AI/腾讯会议 整理一份会议纪要;
  • 用 AI 工具帮你润色文章、翻译文档……

这样,就会发现:AI 不是来代替你,而是来放大你。

它让我们的时间更值钱,让我们的创意更高效,让我们从「执行者」变成「指挥者」。

3. 从焦虑到学习:构建「成长感」

AI 不会终结人类的价值,但它一定会倒逼人类进化认知结构

我们要学的,不是「如何跟 AI 竞争」,而是:

  • 如何提问更好
  • 如何判断 AI 的输出质量和正确性
  • 如何将 AI 的结果转化为自己的成果
  • 如何创造 AI 做不到的价值

这需要我们具备:

  • 批判性思维;
  • 多元化视角;
  • 系统化学习能力;
  • 情绪管理与人际沟通能力。

这些,正是人类在 AI 时代最宝贵的「护城河」。

开启人机协作时代

除了态度上的转变,我们还需要在实践中探索「人+AI」的协作方式。以下三点,或许可以提供一些启发:

1. 能力分层:让 AI 做擅长的,人类做关键的

在很多工作场景中,可以将整个业务流程划分为:

  • 数据处理层:交给 AI,例如自动分类、信息提取、报告生成;
  • 价值判断层:由人类主导,比如战略决策、情感共鸣、道德评估。

举个例子:在财务行业,AI 可以自动生成报表、识别异常交易,但最终的审计判断,仍需要有经验的会计师来把关。

2. 思维互补:用 AI 拓宽选择空间,人类负责价值筛选

AI 的计算能力远超人类,它可以在几秒钟内生成上百个方案。例如:

  • 市场营销人员可以用 AI 生成 100 个广告标题;
  • 视频创作者可以请 AI 写出 50 个脚本大纲;
  • 产品经理可以让 AI 提出多个功能迭代建议。

但最终,哪些方案最符合用户心理?哪些创意最具文化共鸣?这仍然需要人类的大脑与直觉来判断。这种模式,本质上是:

AI 提供「宽度」,人类决定「深度」。

3. 伦理防火墙:在关键场景中,设置人类「最后一环」

AI 的效率令人惊叹,但它不具备真正的道德意识。在一些涉及人类生命、法律、公正的场景中,必须设置「人类兜底机制」。

比如:

  • 在医疗诊断中,AI 可以辅助分析影像、预测病灶,但最终诊断结果应由医生确认;
  • 在司法量刑中,AI 可辅助评估风险与量刑建议,但量刑决定必须由法官裁定;
  • 在金融风控中,AI 可快速筛查欺诈行为,但冻结账户需人工复核。

这种「人类最终确认环节」,就是我们在 AI 时代构筑的伦理防火墙

通过这些实践启示我们可以看到,真正的 AI 时代,并不是「人退 AI 进」,而是人类与 AI 分工协作、优势互补、共同进化

你不需要变成一台机器,但你需要学会如何驾驭一台机器

未来的你,会感谢现在行动的自己

我们生活在一个剧变的时代。AI 是洪流,既可能将我们卷走,也可以成为我们前进的船桨。

我们可能无法阻止技术的浪潮,但我们可以选择:

  • 成为浪潮的受害者,还是浪潮的驾驭者?
  • 被动等待行业淘汰,还是主动创造新机会?
  • 沉浸在焦虑中,还是走出第一步?

未来的世界,不是「AI 取代人类」,而是 人与 AI 共舞

要做的,不是跟 AI 比赛,而是学会与 AI 搭档

当我们真正掌握 AI,当我们将它变成自己能力的延伸,就会发现:

焦虑,是成长前夜的灯光。

最后,送君一段话:

「真正的焦虑,不是来自技术,而是来自我们与变化之间的距离。
AI 不是终点,它是新的起点。
与其害怕未来,不如成为未来的一部分。」

以上。

AI 时代研发同学的必备软技能:从「写好代码」到「终结问题」的进化指南

当 Cursor/Windsurf 为你生成代码片段,ChatGPT/DeepSeek 为你优化技术文档,Midjourney 为你绘制精美草图,你是否也曾思考过:
「在这个 AI 时代,你工作的核心竞争力究竟是什么?」

过去,技术硬实力是研发同学的核心武器,但今天,AI 工具正在以惊人的速度让这些技能「平民化」:

  • 代码量产:AI 几秒钟生成数百行代码;
  • 自动调优:AI 自主优化算法参数,超越人类水平;
  • 全栈覆盖:从前端到后端,从 DevOps 到数据分析,AI 工具无处不在。

然而,AI 的快速普及并不是威胁,而是机会。未来最优秀的研发,不再只是写代码的人,而是能够驾驭 AI,解决复杂问题、创造价值的人。而这一切的基础,就在于软技能的升级。

1. AI 时代的「新研发」画像:从执行到创造的转型

AI 时代对研发同学的要求正在发生质的变化。你需要的不仅是工具使用能力,更是掌握以下三大能力的思维跃迁:

1.1 问题定义力:从「如何做」到「做什么」

AI 工具可以为你提供实现方案,但它无法回答「我们到底要解决什么问题」。能精准定义问题的人,才能引领 AI 高效运转。

  • 举例:用户反馈「系统太慢」,真正的瓶颈可能并不是代码性能,而是业务逻辑过于复杂,或者数据库架构不合理。
  • 关键问题:AI 可以帮你解决「已知问题」,但只有你能找到「未知问题」。

建议实践:

  • 在接到需求时,不急于动手写代码,而是花 30% 的时间明确核心目标。
  • 使用「5 WHY」拆解问题,找到真正的根因。

以某电商大促系统卡顿的问题为例:

当用户反馈「下单页面卡顿」时,我们需要问:

第一层追问:卡顿发生在点击下单按钮时?还是页面加载时?(发生在哪里?)

第二层追问:只有大促期间出现?普通时段正常?(发生在什么时候?)

第三层拆解:日志显示数据库查询耗时暴增,但真的是 SQL 问题吗?(多问一次)

最终发现根本原因是优惠券叠加计算逻辑:当用户同时使用店铺券、平台券、满减券时,业务逻辑循环嵌套导致指数级复杂度上升。

  • 用「5 WHY」法拆解问题
    比如面对「系统太慢」的反馈,可以问:
    1. 为什么太慢? -> 数据查询耗时过长。
    2. 为什么查询耗时过长? -> 数据库没有索引。
    3. 为什么没有索引? -> 设计时没有考虑这个场景。
      通过层层追问,找到问题的根因,而不是停留在表面。

多站在用户视角思考:系统性能对用户真正的影响是什么?是加载时间?响应速度?还是页面卡顿?明确目标后再行动。

1.2 跨领域协作力:从「技术孤岛」到「多维桥梁」

研发同学往往被视为技术专家,但在 AI 时代,研发工作正在从「单一技术领域」走向「跨领域协作」,能够在技术与业务、技术与设计之间建立桥梁的人更具影响力

AI 工具的普及,让技术不再是只有工程师能看懂的「黑箱」,它正在成为每个部门都能触及的工具。这意味着,研发者的作用不再是单纯的技术专家,而是跨部门桥梁

  • 场景 1:向业务团队解释 AI 模型的局限性,例如:大模型生成的预测结果为何在特定场景无法应用。
  • 场景 2:与设计师协作,优化用户体验,而不是单纯关注技术实现。

建议实践:

  • 多关注非技术领域的语言和逻辑,例如:用「用户故事」代替技术术语。
  • 在技术方案中,明确描述其对业务的价值和风险。

举个例子:从「技术术语」到「用户故事」假设业务部门提出一个需求:「我们需要一个 AI 模型来预测用户流失率。」

  • 如果你直接给出技术方案,比如「我们用随机森林算法和 LSTM 模型」,业务团队可能一头雾水,也无法判断你的方案是否符合实际需求。
  • 更好的方式是转化为业务语言,比如:「我们会用 AI 模型预测哪些用户可能流失,这样可以提醒销售团队提前联系,并减少用户流失。」

这种「跨领域翻译能力」不仅能让技术方案更落地,还能让你在团队中更具影响力。

那么,如何提升跨领域协作力?

  • 学习对方的语言和逻辑:比如了解产品经理常用的「用户故事」格式,用场景化的方式描述技术方案。
    • 比如:用户故事可以是「作为一名用户,我希望系统能在 2 秒内加载完成,这样我就不会失去耐心」。
  • 明确技术对业务的价值:在提交技术方案时,补充说明「这个功能可以提升 xx% 的用户体验,节约 xx% 的成本」。

在 AI 时代,研发者不仅是技术的推动者,更是沟通技术与业务、技术与设计的桥梁。谁能打通这些边界,谁就掌握了更多主动权。

1.3 批判性思维:从「接受答案」到「验证答案」

AI 工具给出的代码、方案并非总是可靠。研发者必须具备质疑与验证的能力,避免高效地犯错。

  • AI 提供的代码是否安全? Cursor 生成的代码可能存在漏洞。
  • AI 生成的方案是否符合需求场景? 自动化工具可能忽略了业务逻辑中的特殊条件。

建议实践:

  • 为你的 AI 工作流创建「质检清单」,例如:性能测试、安全检查、业务逻辑验证等。
  • 从 AI 输出中学习,而不是无脑接受,学习其思路和编码的方式等等。

如何培养批判性思维?

  • 为 AI 创建「质检清单」
    每次接受 AI 的输出前,进行以下检查:

    1. 技术层面:代码是否经过边界测试?是否存在安全隐患?
    2. 业务层面:输出结果是否符合实际场景?是否考虑了用户行为习惯?
    3. 合规层面:生成内容是否符合公司政策或行业法规?
  • 从失败案例中学习:多分析 AI 工具失败的案例,理解 AI 的局限性和潜在风险。比如,研究某些场景下的 AI 偏见问题,避免类似错误。

2. AI 时代的软技能到底有多重要?

如果技术硬实力是「上限」,软技能就是「下限」。AI 可以让所有人起点更高,但也会放大研发者的短板:

  • 不会定义问题的人,会被工具束缚在错误的方向上。
  • 缺乏沟通能力的人,会在跨部门协作中失去对话权。
  • 思维固化的人,无法适应 AI 工具带来的工作流变化。

2.1 生存指南

  1. 用「 CTO 思维」拆需求,接到任务时先问三连:

    1. 这个需求背后的商业目标是什么?(比如提升转化率?降低客诉?)
    2. 如果只能用一句话描述成功标准,应该是什么?
    3. 现有数据中哪些指标暗示了真正的问题?(如支付环节跳出率>80%)
  2. 给 AI 加「导航仪」,向 AI 提问时避免开放式指令,而是结构化引导:

    • 错误示范:”优化系统性能”
    • 正确姿势:”当前订单提交平均耗时 2.3 秒( APM 数据),在保证 100% 数据一致性的前提下,请提供三种不同成本预算的优化方案”

2.2 话术 – 「见人说人话,见鬼说鬼话」

  • 对老板:「投入 1 个月开发时间,能防止明年 618 大促期间服务器崩溃的风险」,关注成本和产出
  • 对运营:「这个接口延迟降低1秒,首页UV转化率能提升0.7%(附 A/B 测试数据)」,关注指标
  • 对客服:「新系统上线后,用户咨询’物流进度’的话术可以减少 3 次点击步骤」,关注对于其工作的影响

2.3 软技能的红利公式

AI 时代个人价值 = (技术硬实力 × 软技能系数)^ AI 工具适配度  

系数破局点:

  • 会用AI写代码 → 硬实力基准线(人人可达)
  • 能判断该让 AI 写什么代码 → 软技能决胜区(稀缺资源)

那些软技能出色的研发同学,能够借助 AI 实现飞跃式成长,成为团队中的关键角色。

3. 打造你的「AI 时代工具箱」

软技能的提升不是一朝一夕的事,但可以通过系统化的方法论,逐步打造适应 AI 时代的「工具箱」。

3.1 练习「问题之上」的思维:从执行者到问题定义者

AI 工具可以帮助你高效地执行任务,但它无法告诉你「最重要的问题是什么」。在 AI 时代(也不仅仅是 AI 时代),研发需要从全局视角思考问题的本质:为什么做,而不仅仅是怎么做。

3.1.1 如何练习「问题之上」的思维?

每天主动问自己三个「为什么」,从执行层面上升到战略层面:

  1. 为什么这个功能重要?:真实案例:某研发团队接到任务,优化一个页面加载速度。当他们问「为什么优化加载速度重要?」时,发现问题的本质并不在于技术性能,而是用户期望在关键时刻快速获取信息。最终,他们通过简化页面结构和聚焦核心功能,比单纯优化代码更高效地解决了问题。

  2. 为什么用户需要这个解决方案?:从用户视角出发,挖掘需求背后的真实动机。例如,一款 AI 推荐系统的研发团队意识到,用户并不需要复杂的算法结果,而是想快速找到符合场景的解决方案。于是,他们优化了推荐理由的呈现方式,让用户更容易理解和采纳推荐结果。

  3. 如果资源有限,如何找到最优解?:设想一个极限场景:如果只能用 50% 的时间或资源完成任务,你会如何取舍?这种思考方式能帮助你聚焦核心问题,避免陷入无意义的细节优化中。

3.1.2 成为「破界思考者」的 4 层跃迁法

人类擅长于发现隐藏在表象下的真问题。4 层跃迁法帮助突破思维惯性:

▌认知框架

  • 第1层:需求表象:「业务方要求 3 天上线一个推荐算法」
  • 第2层:利益相关者分析:使用 RACI 矩阵梳理:谁决策/执行/被影响
  • 第3层:系统动力学推演:用因果回路图分析技术方案对用户体验/后端负载/商业指标的连锁影响
  • 第4层:第一性原理拆解:追问:用户点击转化率低的根本原因是算法不准?还是商品信息呈现方式问题?

▌实战工具包

  • 丰田「5Why分析法」进阶版

    现象:用户投诉支付失败率上升  
    Why 1 ▶ 接口超时?  
    Why 2 ▶ 第三方支付网关响应慢?  
    Why 3 ▶ 未适配银行新加密协议?  
    Why 4 ▶ 运维监控策略未覆盖合作方变更?  
    Why 5 ▶ 跨部门信息同步机制缺失?  
    
  • MIT系统思考工具箱

记住:AI 再强大,也需要你来定义问题。跳脱「怎么做」的思维框架,才能成为团队中的问题定义者。

3.2 刻意提升「非技术表达」:让技术为业务赋能

技术再高深,如果让人听不懂,价值就会大打折扣。AI 时代的研发者不仅需要写得出代码,更需要讲得清技术。能用简单、直观的方式表达技术方案,既能提高跨部门协作效率,又能让你的工作成果更具说服力。

3.2.1 如何刻意练习「非技术表达」?

  1. 用一张图解释技术架构:将复杂的技术架构简化成流程图、思维导图或者用户体验图。例如,一个后端服务的高可用方案,可以用一张图展示数据流动、容错机制以及业务价值,而不是写一长段技术描述。

  2. 用「用户视角」描述技术方案的价值:比如,你正在开发一个自动化测试工具,与其说「这个工具可以减少测试时间」,不如说「这个工具可以帮助团队提前发现潜在的产品缺陷,从而减少 30% 的用户投诉」。这样的表达更容易被非技术团队接受。

  3. 用故事化的方式呈现你的方案:例如,在解释一个推荐算法时,可以说:「想象一下用户点开首页,看到的是他最喜欢的内容,这背后是我们的 AI 模型在实时分析用户行为。」这种讲故事的方式更具感染力。

3.2.2 实践工具

  • ▌FAB 法则(Feature-Advantage-Benefit)
    表达技术方案时,从功能(Feature)入手,解释优势(Advantage),最后明确带来的好处(Benefit)。

    • 功能:我们的推荐算法会实时预测用户偏好。
    • 优势:它能够在用户访问的第一时间推荐最相关的内容。
    • 好处:提升用户粘性和点击率,从而增加转化率。
    • 例如:
  • ▌SCQA模型(情境-冲突-问题-答案)

    [情境] 当前订单查询 API 响应时间突破 2s  
    [冲突] 用户体验下滑 vs 硬件扩容成本激增  
    [问题] 如何在零成本下优化性能?  
    [答案] 通过 AI 预测缓存热点数据(命中率提升至 92% )  
    
  • 金字塔原理实战:技术方案文档采用「结论先行+ MECE 分类」结构

记住:技术的价值必须通过清晰的表达被团队和业务部门感知,才能真正落地并创造商业价值。

3. 搭建「AI 质检工作流」:让 AI 为你所用,而不是盲目信任

AI 工具再强大,也只是工具,其输出的内容仍然可能存在问题。研发者需要对 AI 的输出保持质疑态度,并建立一套完善的质检流程,确保工具真正符合需求。

▌四阶验证框架

阶段
检查重点
工具/方法
输入层
需求理解偏差
ChatGPT 反向提问验证法
设计层
架构合理性
架构决策记录(ADR)模板
实现层
安全隐患/技术债
SonarQube+AI 代码审计
价值层
商业目标对齐度
OKR-KPI 映射矩阵

当AI工具成为标配,建立质量管控机制比盲目追求效率更重要

4. 用 AI 「解未来」

  • 精准定义问题,让 AI 为你服务,而不是反过来被工具左右。
  • 跨领域协作,用技术思维解决业务问题,成为团队的桥梁。
  • 对 AI 保持质疑,避免高效犯错,用批判性思维守住技术底线。

AI 不会淘汰研发,只会淘汰不会用 AI 的研发。当机器开始思考时,人类的智慧应该闪耀在机器停止思考的地方。

此刻的你,不妨用 0.1 秒思考:是继续做工具的操控者,还是成为驾驭 AI 的「指挥官」?这场进化游戏没有旁观席,每个技术人都已身在局中。

未来的研发工作,不再是机械地写代码,而是以技术为工具,解决问题、创造价值、推动变革

从今天开始,思考:

  • 我的工作是否创造了价值?
  • 我的技能是否放大了 AI 的潜能?
  • 我的软技能是否已跟上时代的节奏?

AI 已来,你准备好了吗? 


「你认为 AI 时代最重要的软技能是什么?欢迎评论留言讨论!」

以上。

AI 大时代要懂的 2 种「编程范式」

2023 年 AI 新突破导出不穷,隔两个月就会有一个爆点出来,AI 迎来了一个新的里程碑时刻。从 OpenAI 推出的 ChatGPT 到 Midjourney 发布的 V5/V6 版本,AI 在各个领域都取得了突破性的进展。随着 AI 技术的日益成熟,我们也开始思考如何更好地利用 AI 工具来提高工作效率。

到 2024 年, AI 应用、AI 配套的框架和工具如雨后春笋。

在这个 AI 大时代,有两种「编程范式」值得我们关注。为什么要打上引号呢?

因为这里所说的编程,已经不再局限于传统意义上的写代码,而是泛指利用各种工具和模型,将它们灵活组合,创造出新的应用和价值。

第一种范式是基于 ComfyUI 的编程。ComfyUI 是一个模块化的 AI 图像生成工具,它允许用户通过拖拽和连接不同的节点,轻松创建出令人惊艳的 AI 艺术作品。在 ComfyUI 上编程,你无需掌握复杂的代码知识,只需要理解每个模块的功能,并将它们以合理的方式组合在一起,就能得到理想的结果。这种直观、易用的特点,使得 ComfyUI 成为了平面设计、插画创作等领域的得力助手。

第二种范式则是基于 LangChain 的编程。与 ComfyUI 注重视觉创作不同,LangChain 的重点在于自然语言处理。通过 LangChain,开发者可以将语言模型与外部数据源相结合,快速构建功能丰富的聊天机器人、智能文档助手等应用。LangChain 提供了一系列现成的模块和接口,使得即使是非 NLP 专业的程序员,也能在短时间内上手并应用到实际项目中。从客户服务到数据分析,LangChain 正在各行各业发挥着重要作用。

相比传统的编程范式,AI 编程更加注重模块化和灵活组合。我们无需从零开始构建一个完整的系统,而是站在巨人的肩膀上,将现有的模型和工具进行拼装和优化。这种方式不仅大大降低了开发门槛,也极大地提高了开发效率。当然,AI 编程范式也并非完美无缺。对于一些需要高度定制化的场景,传统的代码编程仍然不可或缺。此外,AI 工具的使用也对开发者提出了更高的要求,需要我们对各种模型和算法有更全面的理解和把控。

接下来,简单聊一聊这两种「编程范式」,

comfyUI

ComfyUI 是一个基于 Stable Diffusion 的开源 AI 绘图工具,采用了模块化的节点式工作流设计。它通过将 Stable Diffusion 的各个组件和处理步骤抽象为独立的节点,使得用户可以通过直观的拖拽、连接操作来构建复杂的图像生成流程。

ComfyUI 解决了传统 AI 绘图工具易用性差、扩展性低的问题。其模块化设计和直观的 Web 界面大大降低了用户的使用门槛,无需深入了解底层技术细节,即可快速构建和调整工作流。同时,ComfyUI 还提供了强大的自定义节点机制,允许开发者轻松扩展新的功能和模型,使其能够适应不断发展的AI绘图领域。

ComfyUI 最初由开发者 Comfyanonymous 在 2022 年末发起,旨在提供一个简单、直观的 Stable Diffusion Web UI。早期版本实现了基本的节点类型和 Web 界面,展示了其模块化设计的优势,吸引了一批 AI 绘图爱好者的关注。

在 2023 年春夏,ComfyUI 进入了快速发展阶段。项目不断增加新的节点类型,如 ControlNet、Inpaint、Upscale等,支持更多的图像控制和后处理功能。同时,ComfyUI 引入了自定义节点机制,大大扩展了其功能和适用范围。项目也集成了更多 Stable Diffusion 衍生模型,为用户提供了更多选择。

随着用户社区的不断壮大,ComfyUI 的生态也日益丰富。社区成员积极贡献工作流、节点脚本、训练模型等资源,推动项目的发展。ComfyUI 举办了一系列社区活动,促进了用户间的交流和创作。项目代码库也迎来了更多贡献者,社区力量成为 ComfyUI 发展的重要推动力。

2023 年冬至今,ComfyUI 开始着眼于生态融合和应用拓展。项目与其他 AI 绘图工具建立了联系,支持工作流的导入导出和 API 集成。ComfyUI 也开始探索更多应用场景,如虚拟主播、游戏 mod 等,拓宽了 AI绘图的应用范围。越来越多的开发者和公司开始关注和使用 ComfyUI,其发展前景备受看好。未来,ComfyUI 将继续完善节点系统,引入更先进的 AI 技术,并加强生态建设,有望成为 AI 绘图领域的重要基础设施。

ComfyUI 中节点之间的关联是通过连接节点的输入和输出端口来实现的。每个节点都有预定义的输入和输出端口,用户可以在 UI 界面上将一个节点的输出端口连接到另一个节点的输入端口,从而建立节点之间的数据流和执行顺序。

在 ComfyUI 的后端实现中,这种节点关联是通过一个有向无环图来表示的。DAG 是一种常用的数据结构,用于描述一组节点之间的依赖关系和执行顺序。

当用户在 UI 界面上连接两个节点时,实际上是在 DAG 中添加一条边,表示数据从源节点流向目标节点。ComfyUI 会根据 DAG 的拓扑结构,确定节点的执行顺序,并在运行时将数据在节点之间传递。

ComfyUI 中节点关联有一些关键实现细节:

  1. 端口类型匹配:每个节点的输入和输出端口都有预定义的数据类型。在连接节点时,只有类型匹配的端口才能建立连接
  2. 数据传递:当一个节点执行完毕后,它会将结果数据发送到所有连接到其输出端口的节点的输入端口。
  3. 执行调度:ComfyUI 会根据 DAG 的拓扑顺序,确定节点的执行顺序。当一个节点的所有输入数据都准备好时,该节点就可以开始执行。
  4. 并行执行:无依赖关系的节点可以并行执行,提高执行效率。ComfyUI 会自动分析 DAG,找出可以并行执行的节点。
  5. 缓存优化:对于某些计算量大的节点,ComfyUI 会缓存其计算结果,避免重复计算。当节点的输入数据没有变化时,就可以直接使用缓存的结果。

ComfyUI 通过将节点组织成 DAG 的方式,实现了节点之间的关联和数据流控制。这种设计使得用户能够以可视化的方式创建复杂的图像处理工作流,同时也为并行优化和缓存优化提供了便利。

comfyUI 中核心工作都是围绕其节点,其主要节点如下。

  1. Text Prompt(文本提示)节点:提供文本描述,指导图像生成,输入是用户输入的文本提示如”1girl, brown hair, smile”;输出是编码后的文本向量(tokens)。几乎所有的绘图工作流都需要文本提示节点,它是指定图像内容的主要方式。
  2. Latent Image(潜在图像)节点:表示潜在空间中的图像,可以是随机初始化的噪音,也可以来自其他节点的输出。输入是噪音参数(如seed、尺寸等),或其他节点传递的潜在图像。输出是潜在空间中的图像表示。作为采样起点(初始噪音)或中间结果(如图像修补、图生图等)。
  3. Sampler(采样器)节点:根据条件迭代优化潜在图像,使其解码后符合要求。输入是潜在图像、文本向量、其他条件(如 ControlNet 输出等)、采样步数、采样方法等参数。输出是优化后的潜在图像。采样是图像生成的核心,不同的采样器节点可以权衡生成质量和多样性。
  4. ControlNet 节点:根据附加条件(如边缘、姿态、深度等)控制生成图像。输入是潜在图像、条件图(如 Canny 边缘图)、ControlNet 模型参数等。输出是融合条件控制的潜在图像。用于生成满足特定结构、布局或属性要求的图像,如人像、动漫线稿上色等。
  5. VAE Encode(VAE编码)节点:将 RGB 图像编码为潜在空间表示。输入是 RGB 图像,如用户上传的图片。输出是潜在空间中的图像表示。用于图生图、图像修补、图像融合等需要以图像为起点的任务。
  6. VAE Decode(VAE解码)节点:将潜在空间表示解码为 RGB 图像。输入是潜在空间中的图像表示,通常来自采样器节点。输出是 RGB 图像。用于生成最终可见的图像结果。
  7. Upscale(放大)节点:增加图像分辨率,提高细节。输入是 RGB 图像,放大方法和倍数等参数。输出是放大后的 RGB 图像。用于生成高分辨率图像,常在VAE解码后使用。
  8. Inpaint(图像修补)节点:根据 mask 和提示,对图像的指定区域进行编辑。输入是原始图像、mask 图像、修改区域的文本提示等。输出是修改后的图像。用于对生成图像进行局部编辑,如去除伪影、修改细节等。

除了以上常用节点,comfyUI 还有许多其他节点,如图像保存、剪裁、格式转换等,用于图像的后处理和输出。不同节点可以灵活组合,构建多种多样的绘图工作流,满足各类需求。

举个例子,一个常见的工作流是:文本提示节点 -> 潜在图像节点(初始噪音) -> ControlNet节点(添加结构条件) -> 采样器节点(优化潜在图像) -> VAE解码节点(生成RGB图像) -> 放大节点(提高分辨率) -> 图像保存节点(输出最终结果)。

如下图所示:

+-------------------+     +------------------+     +------------------+
|                   |     |                  |     |                  |
|  Load Model Node  |---->|  Text Encode Node|---->|  Latent Image Node |
|                   |     |                  |     |                  |
+-------------------+     +------------------+     +-------------------+
                                                             |
                                                             |
                                                             v
                                                   +-------------------+
                                                   |                   |
                                                   |  ControlNet Node  |
                                                   |                   |
                                                   +-------------------+
                                                             |
                                                             |
                                                             v
+------------------+     +------------------+     +------------------+
|                  |     |                  |     |                  |
|  Upscale Node    |<----|  VAE Decode Node |<----|  Sampler Node    |
|                  |     |                  |     |                  |
+------------------+     +------------------+     +------------------+
         |
         |
         v
+------------------+
|                  |
|  Output Image    |
|                  |
+------------------+

通过对节点的连接配置和参数调整,用户可以精细控制每个步骤,实现理想的 AI 绘图效果。同时,comfyUI 也鼓励用户开发和分享自定义节点,不断扩展其功能和应用领域。

在理解 ComfyUI 的原理时,其核心还是理解 SD 的原理,简单来讲是通过大模型、CLIP 和 VAE 编码器以及采样器的协同工作,将文本提示转换为特征马赛克,再通过 VAE 解码器还原成图像,从而实现基于文本描述生成图像的功能。

LangChain

什么是 LangChain?

LangChain 是一个开源的 Python 框架,旨在帮助开发者更容易地构建基于大语言模型(LLM)的应用。它提供了一系列工具和组件,可以方便地与各种 LLM 模型集成,如OpenAI GPT、Anthropic Claude、Google PaLM等,而无需从头开始构建或进行大量的微调。

LangChain 旨在简化和统一语言模型与外部数据和应用程序的集成过程。它为开发者提供了一套灵活的工具和组件,可以轻松地将 OpenAI、Hugging Face 等流行的语言模型与知识库、API 等数据源相结合,从而快速构建功能强大的自然语言处理应用,如聊天机器人、智能文档助手、问答系统等。

LangChain 解决了语言模型应用开发中的诸多痛点。在 LangChain 出现之前,开发者需要编写大量的胶水代码来处理不同模型和数据源之间的交互,这不仅耗时耗力,也容易引入错误。LangChain 通过提供一致的接口和预构建的组件,大大简化了这一过程。它还引入了 Prompt Engineering 的理念,允许开发者通过设计优化的提示模板来引导模型生成更准确、更符合需求的输出。

LangChain 的发展历程可以追溯到 2021 年底。最初,它只是一个简单的概念验证项目,旨在探索如何将语言模型与外部数据集成。随着 ChatGPT 等大语言模型的出现和 NLP 技术的快速发展,LangChain 的潜力开始受到关注。

2022 年,LangChain 迎来了重大更新和扩展。它引入了更多的集成选项,支持了更多种类的数据源和下游应用。同时,LangChain 的社区也在不断壮大,越来越多的开发者开始贡献代码和分享经验。

2023 年,伴随着 AI 的大爆发,LangChain 迎来了爆发式增长。它成为了开发 AI 应用的必备工具之一,在各大技术论坛和社交平台上频频被提及。LangChain 也加速了版本迭代和功能更新,引入了更多高级特性,如 Agent 和 Memory,进一步增强了其适用性和性能。

如今,LangChain 已经发展成为一个成熟而强大的 NLP 应用开发框架。它不仅帮助开发者大幅提高了开发效率,也为各行各业带来了前所未有的智能化应用。展望未来,LangChain 还将持续演进,与最新的 AI 模型和技术保持同步,为开发者和用户带来更多惊喜。

LangChain 的核心是将 LLM 与外部数据源连接,并通过 prompt engineering 技术来优化 LLM 的输入输出,从而生成更加准确、相关的结果。它的主要组件和功能如下:

  1. 模型输入输出(Model I/O):对接各种 LLM 模型的 API,提供统一的接口。支持 OpenAI、Anthropic、Hugging Face 等主流 LLM 服务商。
    • 语言模型(Language Models):支持大型语言模型(LLM)和聊天模型(ChatModel)的交互接口。
    • 提示模板(Prompt Templates):用于生成模型输入的预定义配方,支持两种主要类型是:PromptTemplate:生成字符串提示 和 ChatPromptTemplate:生成聊天消息列表提示。
    • 示例选择器(Example Selectors):提供训练、调优、测试和控制模型行为的示例输入输出。
    • 输出解析器(Output Parsers):用于将模型返回的文本结果格式化为目标对象、JSON 或数组等。
  2. 数据连接(Data Connection):在许多 LLM 应用程序中,用户特定的数据不在模型的训练集中,这可能是通过检索增强生成(RAG)实现的。RAG 的主要方法是检索外部数据,并在生成步骤中传递给 LLM。这样,LLM 就可以使用外部数据来增强生成的结果,从而提高应用程序的性能和准确性。
    • 文档加载器(Document Loaders):将不同数据源的非结构化文本加载为文档对象,并支持延迟加载。
    • 文档转换器(Document Transformers):对加载的文档进行处理,包括文本拆分、冗余过滤、元数据提取等。
    • 文本嵌入模型(Text Embedding Models):将文本转换为向量表示,用于文本检索、信息推荐、知识挖掘等。
    • 矢量存储(Vector Stores):负责存储嵌入数据并执行矢量搜索。
    • 检索器(Retrievers):从大规模文本库中检索与查询相关的文本段落,提供问答系统的额外上下文支持。
  3. 链(Chains):组件化的方式将一系列操作连接在一起形成数据处理的工作流,如数据检索、内容生成、翻译等可复用的任务执行流程。常见的链包括 LLMChain、SequentialChain、RouterChain 等。
    • 基础链(LLMChain):围绕语言模型的简单链。由提示模板和语言模型组成,用于格式化提示并返回 LLM 输出。
    • 路由链(RouterChain):可以动态选择下一条链,包括 LLMRouterChain 和 EmbeddingRouterChain。
    • 顺序链(SequentialChain):将多个链顺序连接,支持 SimpleSequentialChain 和更通用的 SequentialChain。
    • 转换链(TransformChain):在链之间添加自定义转换函数。
    • 文档链(DocumentsChain):处理多个文档输入。
  4. 记忆(Memory):为 Chains 和 Agents 提供对话状态记忆能力,用于在链之间存储和传递信息,实现上下文感知。常见的包括 ConversationBufferMemory、ChatMessageHistory 等。
  5. 代理(Agents):一种特殊的 Chain,可根据目标进行工具选择、动作规划和迭代求精。使用 LLM 作为大脑自动思考和决策,执行动作完成任务。包括 ZeroShotAgent、ReAct、Self Ask With Search 等。
  6. 回调(Callbacks):连接到 LLM 申请的各个阶段,用于日志记录、监控等。

LangChain 主要解决了以下问题:

  • 简化了与不同语言模型的交互。
  • 提供了标准化的方法来生成和管理提示。
  • 允许用户为模型提供示例输入输出,以优化模型性能。
  • 支持非结构化文本的加载、转换和处理。
  • 使文本嵌入和检索更加方便,支持向量空间中的各种运算。
  • 通过链的概念,允许将多个组件组合成复杂的工作流程。
  • 实现了对话的上下文感知能力。
  • 通过代理自动执行任务,提高了应用的智能化水平。

那如何使用呢?

使用 LangChain 的一般步骤可能包括:

  1. 根据需求选择合适的组件,如语言模型、提示模板等。
  2. 使用文档加载器加载数据,并利用文档转换器进行预处理。
  3. 配置链,将不同的组件组合起来,创建工作流程。
  4. 利用记忆组件在链之间传递上下文信息。
  5. 定义代理,使用 LLM 进行自动决策和执行。
  6. 设置回调,进行日志记录和监控。
  7. 根据具体应用场景进行调整和优化。

在使用过程中有一些注意的事项:

  1. 根据任务选择合适的 LLM:不同的 LLM 适用不同任务,并有不同的使用成本,需要根据实际情况权衡。在使用 LangChain 前,需要明确了解自己的需求和应用场景,选择和配置合适的组件和模型。
  2. 注意提示工程:LLM 的效果很大程度取决于提示的设计,需要遵循最佳实践,多进行实验和迭代。
  3. 数据的隐私和安全:在涉及用户数据时,注意数据的安全性和隐私保护,遵循相关法律法规和最佳实践。特别是在 fine-tuning 或者数据索引时,要注意数据的隐私和版权问题。
  4. 模型的公平性和伦理性:LLM 可能会放大数据中的偏见,产生有害或者不道德的内容,需要谨慎使用。
  5. 应用的可解释性:端到端的 LLM pipeline 往往是个黑盒,要考虑如何向用户解释其工作原理和局限性。
  6. 成本和效率优化:要密切关注 LLM 调用次数、向量检索等环节的耗时和费用,权衡精度和成本。对于大规模数据处理或高吞吐量的应用,需关注性能优化,可能需要并行处理、缓存机制、硬件加速等手段。

通过合理的使用和配置,LangChain 可以极大地简化复杂 AI 应用的开发流程,提高开发效率和应用性能。LangChain 的设计使得开发者可以灵活地构建和定制 AI 应用程序,以适应不同的业务需求。

LangChain 适用于构建各种 LLM 驱动的应用,比如智能对话助手、知识库问答、数据分析、文案创作等。LangChain 正在成为 LLM 应用开发领域的生产力工具,促进更多创新产品和服务的诞生。

小结

AI 编程范式正在为我们开启一个全新的创作空间。ComfyUI 让设计变得前所未有的简单,LangChain 则让智能对话唾手可得。站在时代的十字路口,拥抱 AI,学习新的编程范式,我们就能更从容地迎接未来的挑战与机遇。

但,纸上得来终觉浅,绝知此事要躬行。

在实际的工作中,这些要用起来,才能有更深刻的体会。

以上。