分类目录归档:架构和远方

难,到底是什么?

难,到底是什么?

经常听到人们说,难啊,好难啊。然而,每个人口中的「难」,似乎都有不同的含义。

有人觉得生活难,因为每天的柴米油盐不断压迫着他们的肩膀;

有人觉得工作难,因为职场的竞争和压力让他们喘不过气;

还有人觉得感情难,因为人心复杂,爱与被爱都充满了矛盾与挣扎。

那么,难到底是什么?为什么我们会觉得难?难又难在哪里?

难,是与期望的落差

很多时候,我们觉得「难」,并不是因为事情本身有多复杂,而是因为现实与我们期望之间存在巨大的落差。

小时候,我们可能以为长大是一件很美好的事情——自由、独立、无拘无束。可真到长大以后才发现,自由是有代价的,独立意味着需要承担责任,而无拘无束不过是一种短暂的幻觉。

于是,生活开始变得「难」了。

比如,刚毕业的年轻人,满怀信心地步入社会,以为凭借自己的能力与努力,能够快速实现梦想。然而,现实却给了他们一记重拳:找工作的时候屡屡碰壁,入职后发现工作并没有想象中那么有趣,工资也无法支撑自己想要的生活。

这时候,「难」的感受就开始浮现了。

他们的期望是光明的,但现实却是灰色的。这种落差让人感到挫败,让人觉得难以承受。

难,是对未知的恐惧

人类天生对未知充满恐惧,这是我们的本能,也是我们的弱点。

面对不确定的未来,我们总会感到焦虑和不安,不知道接下来会发生什么,不知道我们是否能够应对。

这种不确定性,常常是让人感到「难」的一个重要原因。

比如,当你失去了工作,你会觉得难。难在哪里呢?

不是因为你不能短时间内找到一份工作,而是因为你不知道什么时候才能找到下一份合适的工作,你不知道未来的生活会变成什么样。未知让你感到迷茫,而这种迷茫就是「难」的来源之一。

再比如,感情中的「难」。很多人觉得维持一段长期的亲密关系很难,因为人是会变的。今天的爱可能会变成明天的冷漠,今天的承诺可能会变成明天的谎言。你不知道对方是否会一直陪伴你,你也不知道自己是否能一直坚持下去。

未知让人恐惧,恐惧让人觉得「难」。

难,是对自己的怀疑

还有一种「难」,源于我们对自己的怀疑。

这个世界对每个人的要求似乎都很高,我们必须聪明、勤奋、有能力、有责任心,同时还要积极乐观、情绪稳定、社交能力强。

可是,谁能做到完美呢?

当我们发现自己无法达到这些标准的时候,内心就会产生一种深深的自我怀疑:我是不是不够好?我是不是不够聪明、不够努力?我是不是注定要失败?

这种自我怀疑会让人感到无力,甚至会让人陷入一种恶性循环:越怀疑自己,就越难以迈出下一步;越难以迈出下一步,就越怀疑自己。

于是,「难」就像一个无形的枷锁,将我们牢牢地困在原地,动弹不得。

难,是环境的压力

当然,除了内在的因素,「难」也常常来自于外部环境的压力。

比如,一个普通的工薪阶层,可能每天都在为房贷、车贷、孩子的教育费用而发愁。他们每天早出晚归,拼命工作,却依然觉得生活很难。难在哪里?

难在这个社会的规则和结构并不总是对每个人都友好。房价高昂、物价飞涨、竞争激烈……

这些外部的压力让人感到窒息,让人觉得难以为继。

不仅仅是经济上的压力,社会的期待同样让人觉得难。

人们总是喜欢用一些“标准”来衡量别人:到了某个年纪就应该结婚、生子,到了某个阶段就应该事业有成。如果你没有达到这些所谓的“标准”,你就会被贴上“不成功”的标签。

面对这些期待和评价,我们会感到无形的压力,而这种压力也会让人觉得「难」。

难,是内心的挣扎

除了外部的环境和内在的自我怀疑,「难」还有一个重要的来源,那就是我们内心的挣扎。

人生中很多时候,我们需要在两种选择之间做出决定,而每一种选择都可能带来不同的后果。这种选择的过程,往往是非常痛苦的。

比如,一个人是否应该辞去一份稳定但不喜欢的工作,去追求自己真正热爱的事业?

稳定的工作能带来安全感,但追求梦想则可能带来更大的满足感。两者之间如何取舍?

如果选择了稳定,他可能会后悔没有追逐梦想;

如果选择了梦想,他又可能为失去的安全感而感到不安。

这样的内心挣扎,正是「难」的一种体现。

再比如,感情中的分离。有时候,我们知道一段关系已经到了尽头,但我们却依然不舍得放手。放手意味着失去,但不放手又意味着继续痛苦。

这样的挣扎,让人感到无比煎熬,也让人觉得难以抉择。

难,是成长的代价

尽管「难」让人感到痛苦,但它也是成长的必经之路。

每一次我们面对「难」,其实都是在突破自己的边界,拓宽自己的能力。

那些让我们觉得「难」的事情,往往是我们从未尝试过的,或者是我们尚未掌握的。

正是因为它们超出了我们的舒适区,所以才会让我们感到如此困难。

然而,当我们回过头来看,会发现正是这些「难」的时刻,塑造了如今的我们。

小时候学走路很难,但正是因为跌跌撞撞,我们才学会了迈步;学习一项新技能很难,但正是因为不断尝试,我们才掌握了更多的能力。

可以说,每一次克服「难」的过程,都是我们成长的过程。

那么,如何面对「难」?

说实话,生活中谁没遇过点「难」?

钱不够用的时候难,工作做不好的时候难,感情不顺的时候难,甚至连好好睡一觉都成了奢侈的时候,也觉得难。

但「难」归「难」,咱总不能因为难就不活了吧?所以啊,关键是怎么面对这些「难」,怎么扛过这些日子。

1. 别硬撑,先承认「难」是真的难

别不好意思承认你过得不好。

咱都是凡人,不是神仙,每个人都会有扛不住的时候。

遇到难处,别总想着「我得像个英雄一样,谁都不能看出来我有问题」。

其实没必要。生活本来就有高有低,谁还能一直顺风顺水?

比如,钱不够用,那就坦然承认「现在确实紧」;

工作有压力,那就跟自己说「这事儿是难,但我能慢慢来」;

失业了,就大大方方的承认失业了。

先承认难处,别逃避,别压抑,心里反而能轻松点。

2. 别想着「一步到位」,先解决眼前的事儿

很多时候,我们觉得「难」,是因为想把所有问题一下子全搞定

但问题是,谁能一口气吃成个胖子啊?

与其想着「我得一次性翻盘」,还不如先把眼前的小事搞定。

就像爬山,别老盯着山顶,先看看脚下的路。

今天解决一件小事,明天解决另一件,再难的事也能一点点搞定。

比如欠了一屁股债,不要总想着「我什么时候能还清」,先想着「这个月我能还多少」;工作压力大,别想着「我什么时候能升职加薪」,先把手头的任务做好。

一步步来,困难没那么吓人。

3. 别死扛,学会开口求助

很多人遇到难事,总想着「我一个人能撑过去」

但真心话是,很多时候你一个人根本扛不住,硬撑只会把自己拖垮。

别觉得开口是丢脸,身边的亲人、朋友、同事,甚至陌生人可能都愿意帮你一把。

比如,缺钱可以找家人借一点,别总觉得「我不能麻烦别人」;工作搞不定就找同事帮忙,或者问问有经验的人;心理压力太大了,可以找朋友聊聊,甚至去找个心理咨询师。

很多时候,你会发现,事情没那么可怕,只是你把自己憋得太紧了。

4. 别和别人比,过好你自己的日子

说真的,很多时候我们觉得「难」,不是因为事情真的难,而是因为我们老拿自己跟别人比。

看到别人买房了,觉得自己难;

看到同学升职了,觉得自己难;

看到朋友秀恩爱,觉得自己难。

可问题是,那是别人的生活,跟你有啥关系呢?

过日子就得认清楚一点:你有你自己的节奏,别人过得好是别人的事,跟你没太大关系。

你只要做好自己的事,哪怕慢一点,也没啥丢人的。

就像爬山,有人跑得快,有人走得慢,但只要你一步一步往前走,早晚也能到山顶。

5. 难的时候,别忘了对自己好点

人一旦觉得难,就容易钻牛角尖,越想越糟心,越糟心越觉得难。

所以,这时候特别需要停一停,给自己一个喘口气的机会。

比如工作做不下去了,就给自己放个小假,哪怕只是在家窝一天,看几集喜欢的剧;心情不好,就出去转一圈,吃点好吃的,买点小东西奖励自己;压力大得睡不着,就找个朋友聊聊,或者写下来发泄一下情绪。

对自己好点,不是逃避,而是为了让自己有力气继续扛下去。

6. 相信「难」是暂时的

别看现在日子难,未来说不定就有转机了。

生活就是这样,难的时候觉得天都塌了,可熬过去了再回头看,会发现「其实也没那么可怕」。

你可以想想,过去你是不是也遇到过一些很难的事情?

当时觉得过不去了,但现在不也挺过来了吗?

人生就是这样,难是暂时的,熬过去了,一切都会变好。

记住一句话:「再黑的夜,天也会亮;再大的雨,终会停。

7. 行动起来,比什么都重要

最后,最重要的一点:别光想,得行动起来

有些人觉得日子难,总想着「我要是能怎么样就好了」,但光想没用,得去做。

哪怕是一点点小行动,也比一直想强。

比如,缺钱了,先看看能不能找份兼职;工作不顺心,先试着提升自己的能力;感情不好,就试着沟通或者调整自己的状态。

很多时候,难不是因为事情有多复杂,而是因为我们不想动、不敢动。

动起来,哪怕只是一小步,你都会觉得好像没那么难了。

难不可怕,只要你愿意扛

其实,生活中的「难」谁都会遇到,关键是你怎么面对它。

别指望一夜之间解决所有问题,别硬撑,别和别人比,别忘了对自己好点。

一步步来,慢慢熬,熬过去了你会发现,这些难事其实都是你成长的垫脚石。

最重要的是,相信自己。你已经挺过了过去的种种难关,这一次也一定可以再挺过去。

人生嘛,有时候就是一场熬,但熬过去了,天一定会亮的。

以冯唐的话结尾:看脚下,不断行,莫存顺逆

以上。

架构师必备:MFA 了解一下

1. 引言

还记得 2023 年 GitHub 强制推行多因子认证(MFA)的那一刻吗?从 3 月开始,GitHub 分阶段要求用户启用 MFA,并在年底前全面完成覆盖,这让全球开发者不得不重新审视身份安全的重要性。

现在我们登录 Github ,除了要输入密码,还需要完成一个额外的验证步骤,比如输入手机上的动态验证码,或者通过手机上的身份验证器(Authenticator App)确认登录。这种看似繁琐的体验已经成为各大云厂商产品的标配。不仅是 GitHub,像 AWS、阿里云、腾讯云等云厂商也几乎都要求在敏感操作时使用多因子认证(MFA),以确保账户安全。

这种举措不仅保护了平台上的代码和账户安全,更体现了现代身份管理技术的趋势,今天,我们就从 GitHub 强制 MFA 的案例切入,了解 MFA 及 Google Authenticator 的实现原理。

2. 什么是 MFA/2FA

在探讨 MFA 之前,我们需要理解身份验证的本质。身份验证是确认某人或某物的身份是否属实的过程。无论是通过密码登录 Gmail,还是刷身份证进入火车站,身份验证的核心都是确保「你是你自称的那个人」。

然而,传统的基于密码的身份验证模式存在诸多隐患:

  • 密码过于简单:许多人使用诸如“123456”或“password”这样的弱密码。
  • 密码重复使用:用户往往将同一个密码应用于多个网站,一旦一个账户泄露,其它账户也岌岌可危。
  • 钓鱼攻击和暴力破解:黑客通过欺骗或技术手段轻易获取用户密码。
  • 中间人攻击:在不安全的网络环境中,密码可能被拦截。

这些问题导致密码的安全性备受质疑,因此需要额外的保护层,MFA 由此应运而生。

2.1 MFA:不是多一个步骤,而是多一层防护

MFA,Multi-Factor Authentication,多因子认证,是一种身份验证方法,要求用户提供多个独立的身份验证因素来完成登录或访问。传统的身份认证只依赖单一密码,MFA 则通过引入额外的验证步骤,极大地提升了账户安全性。

在 MFA 中,通常会结合以下三类验证因素:

  • 你知道的东西:密码、PIN 码、答案问题等。
  • 你拥有的东西:动态验证码(通过手机或硬件设备生成)、安全令牌、智能卡、U 盾等。
  • 你自身的特征:生物特征验证,如指纹、面部识别、虹膜扫描等。

MFA 的意义在于,即便攻击者获得了你的密码,由于缺少额外的验证因素,他们依然无法轻易访问你的账户。例如,登录 GitHub 时,即使密码被泄露,攻击者若没有你的手机或安全密钥,仍然无法完成登录。

毕竟,密码泄露已经成为网络攻击中最常见的手段,而 MFA 则为用户的账户增加了第二道甚至第三道锁。

2.2 2FA

2FA 是MFA 的一种特殊形式,它仅使用两种不同的验证因素来完成认证。简单来说,2FA 是 MFA 的一个子集。

例如:

  • 登录时输入密码(第一个验证因素:你知道的东西)。
  • 然后输入手机上的动态验证码(第二个验证因素:你拥有的东西)。

值得注意的是,两种不同的验证因素是类别的不同,像以前有一种策略是需要提供密码和安全问题答案,这是单因素身份验证,因为这两者都与「你知道的东西」这个因素有关。

在大多数应用中,2FA 已经足够满足安全需求,因此它是目前最常见的多因子认证实现方式。

3. 为什么 MFA 如此重要?

1. 密码不再安全

随着技术的进步,密码破解的门槛越来越低。攻击者可以通过以下方式轻松破解密码:

  • 暴力破解:通过快速尝试各种可能的密码组合。
  • 数据泄露:黑客通过暗网购买被泄露的用户名和密码。
  • 钓鱼攻击:通过伪装成合法网站诱骗用户输入密码。

在这种背景下,仅靠密码保护账户变得极为不可靠。MFA 通过引入多层保护,从根本上提升了安全性。

2. 提高攻击成本

MFA 的最大优势在于,它大幅提高了攻击者的攻击成本。例如,攻击者即便成功窃取了用户密码,也需要物理接触用户的手机或破解生物特征才能完成登录。这种额外的复杂性往往会使攻击者放弃目标。

3. 应对多样化的威胁

MFA 可以有效抵御多种网络威胁,包括:

  • 凭证填充攻击:即使用泄露的密码尝试登录多个账户。
  • 中间人攻击:即便密码在传输中被窃取,攻击者仍需第二个验证因素。
  • 恶意软件:即使恶意软件记录了用户输入的密码,也无法破解动态验证码。

4. MFA/2FA 的工作过程和形式

4.1 MFA 验证的形式

MFA 形式多样,主要有如下的一些形式:

  1. 基于短信的验证:用户在输入密码后,会收到一条包含验证码的短信。虽然方便,但短信验证并非绝对安全,因为短信可能被拦截或通过 SIM 卡交换攻击(SIM Swapping)被窃取。
  2. 基于 TOTP(时间同步一次性密码)的验证:像 Google Authenticator 这样的应用程序可以生成基于时间的动态密码。这种方式更安全,因为动态密码仅在短时间内有效,且无需网络传输。
  3. 硬件令牌:硬件令牌是专门生成动态密码的物理设备。例如银行常用的 USB 令牌,用户需要插入电脑才能完成验证。
  4. 生物特征验证:指纹、面部识别和视网膜扫描是最常见的生物特征验证方式。这种验证方式非常直观,但存在用户数据隐私的争议。
  5. 基于位置的验证:通过 GPS 或 IP 地址限制用户只能在特定位置登录。
  6. 基于行为的验证:通过分析用户的打字节奏、鼠标移动轨迹等行为特征来确认身份。

4.2 2FA 如何工作?

双因素身份验证的核心理念是:即使攻击者获得了用户的密码,他仍然需要通过第二道验证关卡才能访问账户。以下是 2FA 的典型工作流程:

  1. 第一道验证:用户输入用户名和密码:用户通过密码证明「知道的内容」,这是第一道验证因素。
  2. 第二道验证:动态代码或生物特征识别:系统会向用户发送一个一次性验证码(如短信、电子邮件或 Google Authenticator 生成的代码),或者要求用户提供指纹或面部识别。这是「拥有的东西」或「自身的特征」的验证。
  3. 验证成功,授予访问:如果两道验证都通过,用户即可成功登录。

如当你登录阿里云时,输入密码后需要打开阿里云的 APP,输入 MFA 的验证码。

5. MFA 的局限性

尽管 MFA 极大地提高了账户安全性,但它并非万能。有如下的一些局限性:

  1. 用户体验问题:对于技术不熟练的用户来说,设置和使用 MFA 应用程序门槛比较高。此外,每次登录需要额外的验证步骤,也可能降低用户体验。

  2. 成本问题:企业需要支付额外的费用来实施 MFA。例如短信验证需要支付短信发送费用,而硬件令牌的采购和分发也需要额外开支。

  3. 并非百分百安全:MFA 虽然有效,但并非无懈可击。例如:

    • 短信验证可能被攻击者通过 SIM 卡交换攻击破解。
    • 恶意软件可能会窃取动态密码。
    • 高级攻击者甚至可能通过社会工程学手段获取验证码。

在了解了概念后,我们看一下我们常用的一个 MFA 验证应用 Google Authenticator 的实现原理。

6. Google Authenticator 的实现原理

在使用 Google Authenticator 进行 2FA 的过程中,验证的过程可以分为以下两个主要阶段:初始化阶段 和验证阶段

6.1 初始化阶段:共享密钥生成与分发

这是用户首次启用双因素身份验证时发生的过程。在此阶段,服务端生成共享密钥(Secret Key)并通过安全的方式分发给用户的 Google Authenticator 应用。

  1. 服务端生成共享密钥

    • 服务端为用户生成一个随机的共享密钥K(通常是 16~32 个字符的 Base32 编码字符串,例如JBSWY3DPEHPK3PXP)。
    • 该密钥会作为后续动态密码生成的核心,必须对外保密。
  2. 生成二维码

    • Example: 服务提供方的名称。
    • username@example.com: 用户的账户。在 github 的场景中这个字段是没有的。
    • SECRET=JBSWY3DPEHPK3PXP: 共享密钥。
    • issuer=Example: 服务提供方名称(用于显示在 Google Authenticator 中)。
    • 服务端将共享密钥和其他元信息(如站点名称、用户账户)打包成一个 URL,符合otpauth:// 协议格式,例如:

      otpauth://totp/Example:username@example.com?secret=JBSWY3DPEHPK3PXP&issuer=Example
      

      其中:

    • 该 URL 会被编码为一个二维码,供用户扫描。

  3. 用户扫描二维码

    • 用户使用 Google Authenticator 应用扫描二维码,应用会解析出共享密钥(K)以及站点相关信息,并将其安全存储在手机本地。
    • 共享密钥在手机端不会传回服务端,所有计算均在本地完成。
  4. 初始化完成

    • 用户的 Google Authenticator 应用现在可以基于共享密钥K 和当前时间生成动态密码。
    • 服务端同时将该共享密钥K 绑定到用户账户,并妥善保存以便后续验证使用。

6.2 验证阶段:动态密码的生成与验证

这是用户登录时的验证过程。在此阶段,客户端和服务端基于相同的共享密钥K 和时间步长计算动态密码,并进行验证。

6.2.1 客户端生成动态密码

  1. 获取当前时间

    • Google Authenticator 应用从设备的系统时间中获取当前的 Unix 时间戳(以秒为单位)。
  2. 将时间戳转换为时间步长

    • 将时间戳除以时间步长(通常为 30 秒),并取整:

      T = floor(currentUnixTime / timeStep)
      

      例如,当前时间是1697031000 秒,时间步长为 30 秒,则:

      T = floor(1697031000 / 30) = 56567700
      
  3. 计算 HMAC-SHA-1 哈希值

    • Google Authenticator 将时间步长T 转换为 8 字节的 Big-endian 格式(例如0x00000000056567700)。
    • 使用共享密钥K 和时间步长T 作为输入,计算 HMAC-SHA-1 哈希值:

      HMAC = HMAC-SHA-1(K, T)
      

      结果是一个 20 字节(160 位)的哈希值。

  4. 截断哈希值

    • 根据 HMAC 的最后一个字节的低 4 位,确定一个偏移量offset
    • 从 HMAC 中偏移量开始,提取连续 4 个字节,生成动态二进制码(Dynamic Binary Code,DBC)。
    • 对提取的 4 字节数据按无符号整数格式解释,并将最高位(符号位)置零,确保结果为正整数。
  5. 取模生成动态密码

    • 对动态二进制码取模10^6,生成 6 位数字密码:

      OTP = DBC % 10^6
      

      例如,计算结果为123456

  6. 显示动态密码

    • Google Authenticator 将生成的 6 位动态密码显示给用户,该密码有效时间为一个时间步长(通常为 30 秒)。

6.2.3 服务端验证动态密码

  1. 服务端获取当前时间

    • 服务端同样获取当前的 Unix 时间戳,并计算对应的时间步长T
  2. 计算候选动态密码

    • 服务端使用用户账户绑定的共享密钥K 和当前时间步长T,通过与客户端相同的 TOTP 算法计算动态密码。
    • 为了容忍客户端和服务端的时间差异,服务端通常会计算当前时间步长T 以及前后几个时间步长(例如T-1 和T+1)的动态密码,形成候选密码列表。
  3. 验证动态密码

    • 如果匹配成功,则验证通过,用户被允许登录。
    • 如果所有候选密码都不匹配,则验证失败,拒绝用户登录。
    • 服务端将用户提交的动态密码与候选密码列表逐一比对:

6.3 关键数据的传递过程

在整个验证过程中,关键数据的传递和使用如下:

6.3.1初始化阶段

  • 服务端 → 客户端
    • 共享密钥(K):通过二维码或手动输入传递给 Google Authenticator。
    • 站点信息:站点名称、账户名等信息也通过二维码传递。

6.3.2验证阶段

  • 客户端

    • 本地保存的共享密钥K 和当前时间计算动态密码。
    • 用户将动态密码(6 位数字)手动输入到登录页面。
  • 客户端 → 服务端

    • 用户提交动态密码(6 位数字)和其他常规登录凭据(如用户名、密码)。
  • 服务端

    • 使用同样的共享密钥K 和时间步长计算候选动态密码。
    • 对比用户提交的动态密码与计算结果,完成验证。

整个过程有如下的一些关键点:

  1. 共享密钥的安全性

    • 共享密钥K 是整个验证过程的核心,必须在初始化阶段通过安全的方式传递,并在客户端和服务端妥善保存。
    • 密钥不会在验证阶段传输,只有动态密码被提交。
  2. 时间同步

    • 客户端和服务端的时间必须保持同步,否则计算的时间步长T 会不一致,导致动态密码验证失败。
    • 为了适应设备的时间漂移,服务端通常允许一定的时间步长偏移(如 ±1 步长)。
  3. 动态密码的短生命周期

    • 动态密码的有效时间通常为一个时间步长(30 秒),即使密码被窃取,也很快失效。
  4. 离线生成

    • 动态密码的生成完全依赖共享密钥和时间,无需网络连接,增强了安全性。

7. 小结

通过 GitHub 强制推行 MFA 的案例,我们可以清晰地看到,MFA 已经成为现代身份管理的重要基石。密码本身的弱点让账户安全长期处于威胁之下,而 MFA 的引入不仅为用户增加了一层甚至多层防护,更在技术上为身份验证树立了一个全新的标准。

尽管 MFA 并非完美,还存在用户体验、实施成本和一定的攻击风险,但它在密码安全性危机中提供了一种强有力的解决方案。无论是个人用户还是企业,采用 MFA 已经成为抵御网络威胁的必要手段。

未来,随着技术的进一步发展,多因子认证可能会越来越多地融合生物特征、行为分析和人工智能技术,为用户提供更安全且更便捷的身份验证体验。而对于每一位开发者和用户来说,理解和使用这些技术,不仅是保护自身数字资产的关键,更是应对日益复杂的网络安全形势的必修课。

以上。

深入源码解析 ComfyUI 的模块化节点设计架构

ComfyUI 是一个基于 Stable Diffusion 的开源 AI 绘图工具,采用了模块化的节点式工作流设计。它通过将 Stable Diffusion 的各个组件和处理步骤抽象为独立的节点,使得用户可以通过直观的拖拽、连接操作来构建复杂的图像生成流程。

ComfyUI 解决了传统 AI 绘图工具易用性差、扩展性低的问题。其模块化设计和直观的 Web 界面大大降低了用户的使用门槛,无需深入了解底层技术细节,即可快速构建和调整工作流。同时,ComfyUI 还提供了强大的自定义节点机制,允许开发者轻松扩展新的功能和模型,使其能够适应不断发展的AI绘图领域。

ComfyUI 最初由开发者 Comfyanonymous 在 2022 年末发起,旨在提供一个简单、直观的 Stable Diffusion Web UI。早期版本实现了基本的节点类型和 Web 界面,展示了其模块化设计的优势,吸引了一批 AI 绘图爱好者的关注。

在 2023 年春夏,ComfyUI 进入了快速发展阶段。项目不断增加新的节点类型,如 ControlNet、Inpaint、Upscale等,支持更多的图像控制和后处理功能。同时,ComfyUI 引入了自定义节点机制,大大扩展了其功能和适用范围。项目也集成了更多 Stable Diffusion 衍生模型,为用户提供了更多选择。

随着用户社区的不断壮大,ComfyUI 的生态也日益丰富。社区成员积极贡献工作流、节点脚本、训练模型等资源,推动项目的发展。ComfyUI 举办了一系列社区活动,促进了用户间的交流和创作。项目代码库也迎来了更多贡献者,社区力量成为 ComfyUI 发展的重要推动力。

2023 年冬开始,ComfyUI 开始着眼于生态融合和应用拓展。项目与其他 AI 绘图工具建立了联系,支持工作流的导入导出和 API 集成。ComfyUI 也开始探索更多应用场景,如虚拟主播、游戏 mod 等,拓宽了 AI绘图的应用范围。越来越多的开发者和公司开始关注和使用 ComfyUI,其发展前景备受看好。

前两周,Comfy 推出跨平台的 ComfyUI 安装包,现在我们可以一键安装 ComfyUI 了,这次更新不仅带来了全新的桌面版应用,还对用户界面进行了全面升级,并新增了自定义按键绑定、自动资源导入等一系列实用功能,让工作流程更加流畅。

今天我们深入到 ComyUI 的源码去看一下其实现原理和过程。

ComfyUI 执行的大概流程如下:

用户界面 -> 工作流定义 -> PromptQueue
   ↓
PromptExecutor 开始执行
   ↓
验证输入 (validate_prompt)
   ↓
构建执行图
   ↓
按顺序执行节点
   ↓
缓存结果
   ↓
返回结果到界面

1. ComfyUI 的初始化与执行流程详解

ComfyUI 的一个明显的优点是有着灵活的图形用户界面,可以用于处理复杂的图像生成和处理工作流。

它具有精良的架构设计,通过模块化设计、缓存优化、资源管理以及错误处理机制,确保了系统的高效性和可靠性。

1.1 系统初始化流程

ComfyUI 的启动过程分为几个主要阶段:预启动脚本的执行、节点系统的初始化、服务器的启动与 WebSocket 的连接。

1. 启动前准备

在系统启动前,ComfyUI 会首先执行预启动脚本,确保自定义节点的环境准备就绪。这一过程允许在加载节点之前执行一些必要的自定义操作。

def execute_prestartup_script():
    # 执行自定义节点的预启动脚本
    for custom_node_path in node_paths:
        if os.path.exists(script_path):
            execute_script(script_path)

2. 节点系统初始化

节点系统是 ComfyUI 的核心组件。此阶段会加载内置节点以及用户自定义的节点,并注册到系统中供后续使用。

def init_extra_nodes():
    # 加载内置节点
    import_failed = init_builtin_extra_nodes()
    # 加载自定义节点
    init_external_custom_nodes()
  • 内置节点: 位于 comfy_extras 目录下,定义了基本的图像处理功能。
  • 自定义节点: 用户可以通过 custom_nodes 目录添加自定义节点,扩展系统的功能。

3. 服务器初始化

服务器初始化是启动 ComfyUI 的 Web 服务器的过程。它包括 WebSocket 的初始化,允许前端和后端实时通信。此外,执行队列也会在此阶段创建,用于管理节点的执行顺序和任务调度。

class PromptServer:
    def __init__(self, loop):
        # 初始化 Web 服务器
        self.app = web.Application()
        # 初始化 WebSocket
        self.sockets = dict()
        # 初始化执行队列
        self.prompt_queue = None

1.2 工作流执行流程

工作流执行是 ComfyUI 的核心功能,它包括从提交工作流到执行节点的整个过程。以下是工作流执行的几个关键步骤。

1. 工作流验证

首先,系统会对提交的工作流进行验证,确保节点的类型存在、节点连接有效,并且每个节点的输入符合要求。

def validate_prompt(prompt):
    # 1. 验证节点类型是否存在
    # 2. 验证是否有输出节点
    # 3. 验证节点输入
    return (valid, error, good_outputs, node_errors)

2. 执行准备

在验证通过后,系统会初始化执行环境。这包括创建动态的提示(DynamicPrompt),以及初始化缓存系统,以避免重复计算并提高执行效率。

def execute(self, prompt, prompt_id, extra_data={}, execute_outputs=[]):
    # 1. 初始化执行环境
    with torch.inference_mode():
        # 2. 创建动态提示
        dynamic_prompt = DynamicPrompt(prompt)
        # 3. 初始化缓存
        is_changed_cache = IsChangedCache(dynamic_prompt, self.caches.outputs)

3. 节点执行

每个节点的执行流程包括获取节点的输入数据、检查是否有缓存的数据可以复用、执行节点逻辑、并缓存执行结果。节点执行是系统的核心环节,其过程如下:

def execute(server, dynprompt, caches, current_item, extra_data, executed, prompt_id, execution_list, pending_subgraph_results):
    # 1. 获取节点信息
    unique_id = current_item
    inputs = dynprompt.get_node(unique_id)['inputs']
    class_type = dynprompt.get_node(unique_id)['class_type']
    
    # 2. 检查缓存
    if caches.outputs.get(unique_id) is not None:
        return (ExecutionResult.SUCCESS, NoneNone)
    
    # 3. 获取输入数据
    input_data_all, missing_keys = get_input_data(inputs, class_def, unique_id, caches.outputs, dynprompt, extra_data)
    
    # 4. 执行节点
    output_data, output_ui, has_subgraph = get_output_data(obj, input_data_all)
    
    # 5. 缓存结果
    caches.ui.set(unique_id, {...})
  1. 获取节点信息: 获取当前节点的输入和类型信息。
  2. 检查缓存: 如果节点的输出已经缓存,则直接返回缓存结果,避免重复执行。
  3. 获取输入数据: 从上一个节点或缓存中获取需要的输入数据。
  4. 执行节点: 调用节点的执行函数,处理输入并生成输出数据。
  5. 缓存结果: 将执行结果缓存,以便后续节点使用。

1.3 执行队列管理

ComfyUI 通过执行队列管理工作流中的节点执行顺序。每个节点的执行任务会被放入队列中,系统按顺序处理这些任务。

def prompt_worker(q, server):
    e = execution.PromptExecutor(server, lru_size=args.cache_lru)
    
    while True:
        # 1. 获取队列任务
        queue_item = q.get(timeout=timeout)
        
        # 2. 执行提示
        e.execute(item[2], prompt_id, item[3], item[4])
        
        # 3. 资源管理
        if need_gc:
            comfy.model_management.cleanup_models()
            gc.collect()
  • 获取队列任务: 从队列中取出下一个需要执行的节点任务。
  • 执行节点: 调用执行器执行当前节点。
  • 资源管理: 在必要时触发模型清理和垃圾回收,确保系统资源不被过度占用。

1.4 缓存系统

ComfyUI 的缓存系统采用层次化设计,可以缓存节点的输出、对象和 UI 相关的数据,极大地提高了执行效率。

class HierarchicalCache:
    def __init__(self):
        self.outputs = {}  # 节点输出缓存
        self.ui = {}  # UI 相关缓存
        self.objects = {}  # 节点对象缓存
  • 输出缓存(outputs): 缓存节点的执行结果,避免重复计算。
  • 对象缓存(objects): 缓存大数据对象,如模型和图像,以减少加载时间。
  • UI 缓存(ui): 缓存与前端界面相关的信息,如预览图像和执行状态。

1.5 资源管理与错误处理

为了确保系统的稳定性,ComfyUI 提供了完善的资源管理和错误处理机制。在执行工作流的过程中,系统会自动清理未使用的模型和缓存,并在必要时触发内存回收。

资源管理

资源管理包括内存清理、模型卸载以及缓存清理。系统会根据内存使用情况自动卸载不必要的模型,并定期触发垃圾回收。

# 1. 内存清理
comfy.model_management.cleanup_models()
gc.collect()

# 2. 模型卸载
comfy.model_management.unload_all_models()

# 3. 缓存清理
cache.clean_unused()

错误处理

ComfyUI 实现了详细的错误处理机制,能够捕获并处理执行过程中发生的各种异常。对于节点执行中的错误,系统会记录错误信息并通知用户。

def handle_execution_error(self, prompt_id, prompt, current_outputs, executed, error, ex):
    # 1. 处理中断异常
    if isinstance(ex, comfy.model_management.InterruptProcessingException):
        self.add_message("execution_interrupted", mes)
    # 2. 处理其他错误
    else:
        self.add_message("execution_error", mes)
  • 处理中断异常: 当执行被中断时,系统会捕获异常并记录中断信息。
  • 处理其他错误: 处理其他执行错误,并通过 UI 向用户报告错误详情。

2. 节点系统架构

节点系统是 ComfyUI 的核心系统,其节点系统架构设计精巧,支持动态节点的加载、执行和扩展。今天我们详细介绍 ComfyUI 的节点系统架构,涵盖节点定义、执行流程、缓存机制、扩展性和系统特性等方面。

2.1 节点系统的基础架构

ComfyUI 的节点系统基于 Python 模块化设计,所有节点及其行为都通过类的形式进行定义。这些节点在启动时会进行注册,允许系统灵活地加载和使用内置节点与自定义节点。

核心节点定义与注册

ComfyUI 的节点系统在 nodes.py 中定义,并通过以下映射存储所有节点类及其显示名称:

NODE_CLASS_MAPPINGS = {}  # 存储所有节点类的映射
NODE_DISPLAY_NAME_MAPPINGS = {}  # 节点显示名称映射

节点通过类定义,并包含以下几个关键属性:

  • INPUT_TYPES: 输入参数的类型定义。
  • RETURN_TYPES: 返回数据的类型定义。
  • FUNCTION: 节点的具体执行函数。
  • CATEGORY: 节点的类别,用于在 UI 中分类显示。

节点类型

ComfyUI 支持两种类型的节点:

  • 内置节点: 在系统启动时加载,存储在 comfy_extras 目录下。内置节点提供了常见的图像操作、模型加载和处理功能。
  • 自定义节点: 用户可以在 custom_nodes 目录中添加自定义节点,系统在启动时自动加载这些节点。

节点加载机制

ComfyUI 提供了灵活的节点加载机制,允许动态加载内置节点和自定义节点:

def init_builtin_extra_nodes():
    extras_dir = os.path.join(os.path.dirname(os.path.realpath(__file__)), "comfy_extras")
    extras_files = ["nodes_latent.py""nodes_hypernetwork.py"]

对于自定义节点,ComfyUI 使用动态模块导入的方式加载:

def load_custom_node(module_path: str, ignore=set(), module_parent="custom_nodes") -> bool:
    module_spec = importlib.util.spec_from_file_location(module_name, module_path)
    module = importlib.util.module_from_spec(module_spec)
    if hasattr(module, "NODE_CLASS_MAPPINGS"):
        for name, node_cls in module.NODE_CLASS_MAPPINGS.items():
            NODE_CLASS_MAPPINGS[name] = node_cls

这种设计使得 ComfyUI 可以方便地扩展和加载新节点,用户可以根据需求自定义节点功能并动态加载。

2.2 节点执行系统

节点的执行逻辑由 execution.py 中的 PromptExecutor 类负责。该类管理了节点的执行流程,包括输入验证、节点函数执行、结果缓存和输出返回等。

执行流程

节点的执行流程如下:

  1. 输入验证: 系统首先验证节点的输入是否符合预定义的输入类型。
  2. 获取输入数据: 从上一个节点或缓存中获取节点的输入数据。
  3. 执行节点函数: 根据定义的 FUNCTION 执行节点逻辑。
  4. 缓存结果: 执行结果会缓存,避免重复计算。
  5. 返回输出: 将执行结果返回给下游节点或 UI。

执行器的核心代码如下:

class PromptExecutor:
    def execute(self, prompt, prompt_id, extra_data=None, execute_outputs=[]):
        # 节点执行的主要逻辑

ComfyUI 通过此执行器确保节点按顺序执行,并管理节点间的数据流动。

2.3 缓存机制

为了提高性能,减少重复计算,ComfyUI 实现了多层缓存系统,缓存节点的输出、对象和 UI 相关数据。缓存的实现类为 HierarchicalCache,并且系统支持 LRU(最近最少使用) 缓存策略。后续章节会详细讲一下缓存,这里先略过。

2.4 数据流与依赖管理

ComfyUI 的节点系统依赖于图形化的数据流管理。节点之间通过输入和输出相互连接,系统会自动分析节点间的依赖关系,确保数据流在节点间正确传递。

节点图解析与执行顺序

  1. 节点图解析: ComfyUI 解析 JSON 格式的节点图,识别节点之间的连接关系。
  2. 依赖管理: 系统自动分析节点间的依赖,确保每个节点在其依赖的节点完成后执行。
  3. 执行顺序构建: 系统基于依赖关系构建节点的执行顺序,防止循环依赖和执行死锁的发生。

2.5 错误处理与资源管理

ComfyUI 实现了完善的错误处理机制,确保节点执行过程中出现错误时,系统能够及时捕获并反馈给用户,避免系统崩溃。同时,ComfyUI 通过自动垃圾回收和内存管理功能,定期清理未使用的模型和缓存,优化系统资源使用。

常见的错误处理机制包括:

  • 输入验证失败: 如果输入数据类型不匹配或数据缺失,系统会抛出异常。
  • 执行错误: 如果节点在执行过程中遇到错误,系统会捕获并将错误信息反馈到前端 UI。

垃圾回收机制由以下代码管理:

gc_collect_interval = 10.0  # 每10秒进行一次垃圾回收

2.6 前端接口与用户交互

ComfyUI 提供了 WebSocket 和 REST API 来管理前端与后端的通信。通过这些接口,前端 UI 可以实时监控节点的执行状态,并获取节点的执行结果。

WebSocket 通信

WebSocket 负责处理前端与后端的实时通信,包括节点执行状态的推送和执行命令的接收。

@routes.get('/ws')
async def websocket_handler(request):
    # 处理前端连接
    # 发送执行状态
    # 处理节点执行

REST API

REST API 用于获取节点信息和处理其他非实时请求。例如,可以通过以下 API 获取节点的详细信息:

@routes.get("/object_info/{node_class}")
async def get_object_info_node(request):
    # 获取节点信息

2.7 系统扩展与自定义

ComfyUI 的节点系统设计非常灵活,支持用户根据需求扩展新功能。用户可以通过编写自定义节点来扩展系统的功能,而无需修改核心代码。系统支持热插拔的节点加载机制,使得自定义节点的开发和调试更加便捷。

动态类型系统

ComfyUI 支持动态类型系统,可以根据运行时情况自动调整节点的输入输出类型,确保系统的灵活性和可扩展性。

插件与自定义节点

自定义节点通过 custom_nodes 目录加载,用户可以编写自己的节点并通过 NODE_CLASS_MAPPINGS 注册到系统中。

3. 缓存系统

在 ComfyUI 项目中,缓存系统的设计主要由以下几个部分组成:

3.1 缓存类型

ComfyUI 的缓存系统主要包括三种缓存类型:

  • outputs: 用于缓存节点的输出结果,减少不必要的重复计算。
  • ui: 缓存与用户界面相关的数据,比如预览图像、状态信息等。
  • objects: 专门用于存储大型对象,如模型等大体积数据。

这三种缓存通过 CacheSet 类进行初始化和管理,具体实现如下:

class CacheSet:
    def __init__(self, lru_size=None):
        if lru_size is None or lru_size == 0:
            self.init_classic_cache() 
        else:
            self.init_lru_cache(lru_size)
        self.all = [self.outputs, self.ui, self.objects]

3.2 缓存实现方式

缓存系统可以根据不同的需求选择不同的实现方式:

Classic Cache(传统缓存)

当没有设置 LRU 缓存大小时,缓存系统会初始化为经典的层级缓存。具体实现如下:

def init_classic_cache(self):
    self.outputs = HierarchicalCache(CacheKeySetInputSignature)
    self.ui = HierarchicalCache(CacheKeySetInputSignature)
    self.objects = HierarchicalCache(CacheKeySetID)
  • outputs 和 ui 都使用 CacheKeySetInputSignature 作为缓存键,用于基于输入签名进行缓存。
  • objects 使用的是 CacheKeySetID 作为缓存键,主要是为了存储大型对象,如模型数据。

LRU Cache(最近最少使用缓存)

如果设置了 LRU 缓存大小,系统会初始化为 LRU 缓存,适用于内存较充足的情况下,以优化性能。

def init_lru_cache(self, cache_size):
    self.outputs = LRUCache(CacheKeySetInputSignature, max_size=cache_size)
    self.ui = LRUCache(CacheKeySetInputSignature, max_size=cache_size)
    self.objects = HierarchicalCache(CacheKeySetID)
  • outputs 和 ui 使用 LRU 缓存,能够根据使用频率自动淘汰最少使用的缓存项,保证内存得到最优管理。
  • objects 仍然使用 HierarchicalCache,因为模型等大型对象的加载和卸载代价较高,不适合频繁淘汰。

3.3 缓存键策略

为了确保缓存的正确性,缓存系统使用两种不同的缓存键策略:

CacheKeySetInputSignature

  • 用于 outputs 和 ui 缓存。
  • 该缓存键基于节点的输入签名,包含节点类型、输入参数及祖先节点关系等,可以确保相同的输入得到相同的输出。

CacheKeySetID

  • 用于 objects 缓存。
  • 这是一种基于节点 ID 和类型的简单缓存键,用于存储与输入无关的大型对象,如模型等。

3.4 缓存清理机制

无论是传统缓存还是 LRU 缓存,ComfyUI 都提供了缓存清理机制,避免过多的缓存占用内存资源。

经典缓存清理

经典缓存会及时释放不再需要的数据,防止内存溢出。

LRU 缓存清理

LRU 缓存通过一个 generation 计数器和 used_generation 字典记录每个缓存项的使用时间。当缓存超出预设大小时,LRU 算法会移除最久未使用的项。

3.5 扩展性和调试

ComfyUI 的缓存系统支持扩展和调试:

  • 扩展性: 缓存系统支持自定义节点和模型的缓存策略,可以根据需要调整缓存大小和键生成逻辑。
  • 调试: 提供了 recursive_debug_dump 函数,能够以递归方式输出缓存的调试信息,方便开发者进行问题排查。
def recursive_debug_dump(self):
    result = {
        "outputs": self.outputs.recursive_debug_dump(),
        "ui": self.ui.recursive_debug_dump(),
    }
    return result

3.6 缓存小结

ComfyUI 的缓存系统设计非常灵活,它通过 CacheSet 类将不同类型的数据(节点输出、UI 数据、大型对象)分离管理,并支持经典缓存和 LRU 缓存两种策略。依靠层次化的缓存结构和精确的缓存键策略,ComfyUI 能够有效地减少重复计算,并优化内存使用。

4. 使用限制

在使用 ComfyUI 时,虽然系统本身没有硬性限制节点数量,但仍然存在一些与性能、资源管理和系统稳定性相关的限制。这些限制大多与历史记录、图像分辨率、缓存、内存管理等方面有关。

4.1 历史记录限制

ComfyUI 会保存工作流中的历史记录,用于回溯和调试。系统中对历史记录的最大保存数量有如下限制:

MAXIMUM_HISTORY_SIZE = 10000
  • 限制描述: 系统最多保存 10000 条历史记录。
  • 影响: 当历史记录达到上限时,旧的记录会被移除,无法继续回溯到更早的操作。
  • 建议: 如果不需要长时间保存历史记录,定期清理历史记录可以释放内存资源,提升系统的运行效率。

4.2 图像分辨率限制

ComfyUI 中对单个图像处理的最大分辨率有限制,防止超大图像导致系统崩溃或内存不足:

MAX_RESOLUTION = 16384
  • 限制描述: 系统允许的最大图像分辨率为 16384×16384 像素。
  • 影响: 超过此分辨率的图像无法处理,可能会导致内存溢出或显存不足的情况。
  • 建议: 尽量避免处理过于高分辨率的图像,尤其是在显存较小的 GPU 上运行时。对于需要处理大图像的工作流,可以考虑将图像分割成多个较小的瓦片。

4.3 VAE 解码瓦片大小限制

在图像生成过程中,VAE 解码器对瓦片大小进行了限制,以确保解码过程的效率与内存管理:

"tile_size": ("INT", {"default"512"min"128"max"4096"step"32})
  • 限制描述: VAE 解码时,允许的瓦片大小在 128 到 4096 像素之间。
  • 影响: 如果瓦片大小设置过大,系统可能会因为内存不足而运行缓慢或崩溃;瓦片大小过小则可能影响解码效率。
  • 建议: 根据 GPU 显存大小合理调整瓦片大小,找到性能和内存占用之间的平衡点。

4.4 文件上传大小限制

在使用 ComfyUI 时,文件上传的大小受限于系统的配置,特别是通过命令行参数 max_upload_size 来控制:

max_upload_size = round(args.max_upload_size * 1024 * 1024)
  • 限制描述: 上传文件的最大尺寸由命令行参数 max_upload_size 控制,单位为 MB。
  • 影响: 超过上传文件大小限制的文件将无法上传或处理。
  • 建议: 如果需要上传较大的文件,可以通过调整命令行参数来提高上传文件的大小限制。

4.5 缓存限制

ComfyUI 使用缓存系统来优化计算效率,减少重复计算。缓存的大小和管理方式可以通过 LRU(最近最少使用)策略进行控制:

def __init__(self, lru_size=None):
    if lru_size is None or lru_size == 0:
        self.init_classic_cache() 
    else:
        self.init_lru_cache(lru_size)
  • 限制描述: 缓存的大小受 LRU 策略控制,缓存过多时,系统会淘汰最少使用的缓存项。
  • 影响: 当缓存大小设置过小,可能会频繁清除缓存,导致重复计算;缓存过大则可能占用大量内存。
  • 建议: 根据内存资源合理设置缓存大小。对于内存充足的系统,可以增加缓存大小,以减少重复计算;对于内存紧张的系统,建议定期清理缓存。

4.6 执行队列限制

节点的执行通过队列进行管理,系统按顺序执行节点,避免同时执行过多节点造成性能瓶颈:

  • 限制描述: 系统使用队列调度节点执行,包括当前运行的队列和等待执行的队列。
  • 影响: 如果节点过多,执行速度会受到队列调度的影响,可能出现等待时间过长的情况。
  • 建议: 尽量简化工作流,避免过多的节点同时排队执行。如果遇到性能瓶颈,可以将大规模的工作流分解为多个子工作流逐步执行。

4.7 Tokenizer 限制

在文本处理方面,CLIP 模型的 Tokenizer 有一个最大长度限制:

"model_max_length"77
  • 限制描述: CLIP 模型的 Tokenizer 最多支持 77 个 token。可修改配置。
  • 影响: 超过 77 个 token 的输入文本将被截断,可能会影响文本生成的精度。
  • 建议: 尽量保持输入文本简洁,避免过长的描述。如果必须使用长文本,可以通过分段输入的方式进行处理。

4.8 限制小结

虽然 ComfyUI 对节点数量没有明确的硬性限制,但在使用过程中仍然受到一些系统资源和配置的限制。这些限制大多是为了确保系统的稳定性、优化性能以及合理使用内存资源。为了避免因这些限制导致的性能瓶颈或崩溃,建议在使用时遵循以下最佳实践:

  • 保持工作流简洁: 避免不必要的节点,定期清理历史记录和缓存。
  • 监控系统资源: 注意监控内存和显存的使用情况,避免资源耗尽。
  • 分解大型工作流: 对于复杂的工作流,可以分成多个子工作流来逐步执行,减少单次执行的节点数量。
  • 调整系统配置: 根据实际需求调整文件上传大小、缓存设置等参数。

通过合理地管理工作流和系统资源,ComfyUI 可以在大型工作流中保持高效运行,避免因资源限制导致的性能问题。

模块化设计带来的无限可能

ComfyUI 的模块化节点系统不仅提升了用户的易用性,还通过灵活的扩展机制和高效的缓存管理提供了强大的自定义能力。

它的图形化工作流设计大大降低了 AI 绘图的技术门槛,使得更多用户能够轻松上手,并根据自己的需求定制不同的图像生成方案。

随着社区的不断壮大和功能的持续扩展,ComfyUI 有望成为 AI 绘图领域的重要基础设施之一,为创作与开发者提供无限的可能性。

以上。