标签归档:AI幻觉

对最近 AI 落地工程实践的一些想法和思考

最近和小区某上市公司的 CFO 喝茶聊 AI,在过程中思维和实际场景的碰撞,记录如下:

穿透复杂的表象,当前 LLM 的底层运行逻辑其实非常单一:它本质上是一个自回归的序列生成器,根据已有的上下文,计算词表中每一个 token 出现的概率分布,然后从中采样出下一个 token。

但这里的「概率」绝非毫无逻辑的随机掷骰子。 这种概率分布,是模型在海量预训练数据中内化的语言规律、世界知识以及逻辑推理能力的数学投影。通过多层 Transformer 网络与注意力机制(Attention),模型在极高的维度上完成了对上下文语义的深度解析与特征关联,从而将符合人类逻辑、契合当前语境的 token 赋予极高的概率权重。它是在用统计学的方式,重现人类的逻辑推理过程。

然而,无论其内部的概率计算多么精密,从软件工程的宏观视角来看,我们本质上依然是在传统的确定性系统中,强行引入了一个基于概率采样的非确定性组件。

传统软件工程建立在严格的确定性之上。输入特定的参数,经过固定的业务逻辑,必然得到预期的输出。现在我们将核心逻辑交由概率模型处理,相同的输入在不同的时间点,可能会产生完全不同的输出路径。

幻觉无法被根除。它是自回归模型的内生特性,是概率采样的必然产物。我们在进行系统架构设计时,必须将幻觉视为系统的常态。试图通过修改 Prompt 来彻底消除幻觉,在工程上徒劳无功。我们需要在系统边界处建立起拦截机制,用确定性的规则去兜底概率模型的不确定性。

容错度决定落地

当前商业化落地最顺畅、ROI 最高的场景,全部集中在高容错度领域。写行业报告、生成营销文案、文生图、视频生成、游戏 NPC 对话。这类场景的核心特征在于缺乏绝对的客观标准。

在内容创作领域,模型偶尔的逻辑发散会被用户视为创造力。工程团队不需要在接口的绝对可用性和输出的绝对准确性上死磕,只需要保证底线的内容安全和合理的响应延迟。系统可用性达到 95% 就能让用户产生极强的获得感。

一旦进入低容错度场景,工程实现的复杂度会呈指数级上升。医疗诊断、工业控制、核心交易链路。在这些领域,0.1% 的幻觉率都会导致灾难性的业务后果。我们在评估一个 AI 项目是否立项时,首要考量指标就是业务场景的容错底线。容错度越低,外围需要的确定性校验代码就越厚重,最终会导致系统的维护成本远超 AI 带来的效率提升。

知识外挂 RAG

RAG 的出现是为了解决模型内部知识更新滞后和私有数据隔离的问题。其核心原理是将外部文档切片、向量化,在用户提问时检索相关切片,拼接到 Prompt 中作为上下文喂给大模型。

在实际的工程环境里,RAG 的核心瓶颈在检索链路。切片策略直接决定了召回质量。按固定 token 长度切分会破坏语义完整性,导致关键信息被腰斩。按标点符号或段落切分会导致切片长度方差过大,影响向量化模型的表达能力。我们在生产环境中通常需要针对不同格式的文档编写定制化的解析器,将 PDF 或 Word 还原为结构化的文档树,再基于文档树的层级进行语义切片。

单一的向量检索在面对专有名词和长尾词汇时表现极差。我们必须采用混合检索架构:稠密向量检索加上稀疏词表检索。向量检索负责语义泛化,处理同义词和模糊表达。词表检索负责精准匹配产品型号、人名和内部项目代号。混合检索引入了多路召回合并的问题,通常需要引入倒数秩融合算法来重排结果。系统复杂度和查询延迟会成倍增加。

数据清洗占据了 RAG 项目 80% 的研发精力。直接将企业内部的原始文档灌入向量数据库,最终的问答准确率通常不到 40%。文档中存在大量的废话、过期的流程规范以及相互冲突的条款。垃圾进,垃圾出。我们在构建知识库之前,必须通过脚本和人工介入,对语料进行严格的去重、降噪和结构化提取。

工具调用确定性

为了弥补概率模型的缺陷,我们需要引入确定性的工具。Function Calling 机制本质上是给 LLM 接上双手。模型负责理解自然语言意图并提取结构化参数,具体的业务逻辑交由传统的确定性脚本执行。

工具调用的工程难点在于参数提取的稳定性。当注册的工具数量超过十个,或者参数结构嵌套层级过深时,模型的输出格式极易崩溃。我们在中间层必须加入严格的 Schema 校验机制。一旦校验失败,需要截断错误信息并触发重试。重试次数上限通常设定为 3 次,继续增加会耗尽上下文窗口并导致请求超时。

多轮工具调用会带来严重的延迟问题。模型每决定调用一次工具,都需要经历一次完整的网络请求和推理过程。如果一个复杂任务需要串行调用三个工具,用户的等待时间会轻易突破 10 秒。我们在架构设计时,需要尽可能将细粒度的 API 聚合成粗粒度的宏接口,减少模型与业务系统的交互频次

Agent 架构的脆弱性与状态管理

多智能体(Multi-Agent)架构在技术社区被过度神话。多个大模型相互协作、自主规划任务的 Demo 看起来非常惊艳。在真实的工业场景中,完全由 LLM 自主驱动的 Agent 链路极其脆弱。

误差会在多步推理中被迅速放大。假设单个 Agent 节点的输出准确率为 90%,一个包含五个节点的串行任务,最终的成功率会暴跌至 59%。任何一个节点的幻觉都会导致后续链路彻底跑偏。

我们在生产环境中构建复杂任务流时,坚决摒弃由 LLM 自主决定执行路径的黑盒模式。控制流必须由传统的有向无环图(DAG)或状态机来接管。LLM 仅仅作为状态机中的一个计算节点,负责处理非结构化数据的理解和生成。节点与节点之间的状态流转、条件判断、异常重试,全部由确定性的代码实现。这种设计牺牲了系统的灵活性,换取了业务系统必须具备的稳定性和可观测性。

非确定性系统的测试与监控

非确定性系统的测试与监控,是传统软件工程团队转型 AI 开发时遇到的最大痛点。传统的单元测试基于断言,期望输出是固定的字符串或数值。面对 LLM 每次都不一样的回答,基于精确匹配的 CI/CD 流水线会全线崩溃。

我们重构了整个测试评估体系。引入 LLM-as-a-Judge 机制,使用一个能力更强、参数规模更大的模型来评估业务模型的输出质量。评估维度被拆解为相关性、事实一致性、格式合规性等具体指标。在每次模型版本迭代或 Prompt 修改后,必须在包含上千个真实业务 Case 的黄金数据集上运行自动化评估。只有各项指标的波动在可控范围内,才能进行灰度发布。

在监控层面,传统的 APM 工具无法满足需求。我们需要采集每一个请求的 Prompt 模板版本、输入变量、输出结果、Token 消耗量以及推理延迟。这些数据是后续进行 Bad Case 分析和模型微调的唯一原料。针对 Token 消耗的监控直接与业务成本挂钩。我们会在网关层设置严格的并发限制和预算熔断机制,防止恶意请求或死循环调用导致账单失控。

两种范式的碰撞

AI First 与 AI 辅助是完全不同的架构逻辑。

AI 辅助是在现有系统中打补丁。主干流程依然是传统的表单和按钮,AI 作为一个侧边栏或悬浮窗存在,提供总结、翻译、润色功能。开发成本极低,对原有系统无侵入。用户在遇到问题时,可以选择性地向 AI 求助。

AI First 要求重构整个交互形态和底层流转逻辑。系统不再依赖预设的菜单树,由 LLM 充当中央路由。用户的自然语言输入直接驱动底层状态机流转。这要求所有内部 API 具备极高的自描述能力,业务逻辑必须高度解耦。我们在推进 AI First 架构时,面临的最大阻力通常来自老旧系统的技术债。历史遗留的紧耦合代码根本无法被封装成独立的工具供模型调用。

财务场景的拆解

财务场景是典型的低容错度、高确定性要求的领域。将概率模型直接应用于财务核心链路会引发严重的合规风险。可落地的切入点集中在外围的非结构化数据处理和信息流转环节。

发票与报销单据的信息抽取是一个高价值场景。传统 OCR 结合正则匹配在面对版式多变的票据时维护成本极高。引入大模型进行多模态信息抽取,将非结构化的图片或 PDF 转换为结构化的 JSON 数据。抽取后的数据必须经过传统规则引擎的二次校验,例如金额试算平衡验证、税号合规性检查。模型在这里承担的是「粗加工」角色,最终的业务落库动作依然由确定性代码把控。

财务制度问答可以大幅降低沟通成本。基于企业内部报销规范构建 RAG 系统。员工在提单前通过自然语言查询报销标准。这里的 RAG 必须严格限制模型的发散,Prompt 中需强制要求「仅根据检索到的内容回答,未提及的内容直接回复不知道」。为了防止模型编造财务政策,我们会在输出层增加一层文本相似度校验,确保模型的回答与检索到的原文保持高度一致。

财务分析报告初稿生成也是一个可行的方向。将结构化的财务报表数据通过代码转换为文本描述,作为上下文喂给模型,让其生成趋势分析和异常波动提示。模型在这里仅作为「翻译官」和「排版员」,不参与任何数值计算。所有的同比、环比计算必须在传统代码层完成,将计算结果以明确的数值形式提供给模型。让 LLM 去做算术题是工程上的反模式。

数据隐私在财务场景中是不可逾越的红线。公有云 API 无法满足审计要求。我们通常需要采用本地私有化部署的开源模型。7B 到 14B 参数规模的模型经过量化处理后,可以在单张消费级显卡上流畅运行。通过针对财务语料的微调,这些小模型在特定信息抽取任务上的表现可以持平甚至超越千亿参数的通用大模型。私有化部署带来了硬件采购和模型运维的额外成本,需要在项目初期进行严格的 ROI 测算。

以上