: 首页; 看点啥; 插画图片

首页看点啥大模型安全学习专题（8）：从 NIDS 到 AI Firewall——LLM 安全的技术架构演进

大模型安全学习专题（8）：从 NIDS 到 AI Firewall——LLM 安全的技术架构演进

2026-07-02 0

这是本系列的最后一讲。

在前七讲里，我们从攻击技术（Series 01-03）、到供应链风险和持续性威胁（Series 04-05）、到事件响应和治理框架（Series 06-07），构建了一个完整的 LLM 安全知识体系。

这一讲，我们回到技术本身，探讨一个更宏观的问题：LLM 安全的技术架构应该如何演进？

具体来说：

• NIDS 在 LLM 安全里的定位是什么？• AI Firewall 是什么，跟传统防火墙有什么区别？• 从 heidsoft-nids 这样的 NIDS，到完整的 AI Firewall，中间有哪些架构演进的路径？• 他山之石：业界有哪些值得参考的架构实践？

1. 重新理解 NIDS 在 LLM 安全的定位

1.1 NIDS 的核心价值：网络侧的可观测性

Network Intrusion Detection System（NIDS）的核心价值是网络侧的可观测性。

它站在网络层，看到的是：

• 所有流量：不依赖应用层的埋点，不影响业务性能。无论 LLM 应用如何分布、如何实现，所有对外的 API 调用都会经过网络层，这使得 NIDS 成为一种与具体应用无关的通用检测手段。• 原始数据：HTTP body、TLS handshake 元数据（JA3/JA4 指纹）。这些数据不经过应用层的"过滤"，能真实反映网络上正在发生什么。• 全局视图：能看到整个网络里不同系统之间的交互。这种跨系统的视野，是单一应用内检测所不具备的。• 攻击者视角：攻击者的行为特征（源 IP、目的地、请求模式）在网络侧一览无余。即使攻击者试图通过应用层的混淆来隐藏行为，网络层往往仍能捕捉到异常。

这些价值在 LLM 安全场景里依然成立，只是需要针对 LLM API 的特点进行适配：

NIDS 能力	LLM 安全场景	检测价值
HTTP 流量解析	检测 Prompt Injection、API Key 外带	能看到完整的请求内容，发现关键词攻击和凭证泄露
TLS 元数据	识别 LLM 服务商流量（JA3 指纹）	无需解密即可识别流量去向，实现 Shadow AI 发现
连接跟踪	检测异常 API 调用模式	发现 Slow Stealth 攻击等时间维度异常
规则引擎	自定义 LLM 安全检测规则	灵活应对新型攻击手法
全局流量视图	检测 Slow Stealth、供应链攻击	跨租户、跨应用的聚合分析能力

1.2 NIDS 的天然盲区

但 NIDS 也有它解决不了的问题。这些盲区不是 NIDS 的"缺陷"，而是它技术定位上的天然边界。理解这些边界，是正确使用 NIDS 的前提。

盲区 1：加密流量的内容不可见

即使 TLS 解密技术可用，如果 LLM 服务商使用端到端加密，NIDS 依然看不到请求体和响应体的内容。这意味着：

• Prompt Injection 的完整检测依赖关键词或模式匹配，无法做真正的语义分析。当攻击者使用同义词替换、编码混淆等技术时，检测效果会大打折扣。• 响应体里的恶意内容无法被检测到。如果 LLM 返回了敏感数据或恶意指令，而该响应经过加密传输，NIDS 将无法感知。• 语义级的攻击在网络侧不可见。比如"请描述如何绕过安全检测"这样的请求，看起来只是一个普通的翻译或问答请求，但在语义层面它是在寻求攻击信息。

盲区 2：缺乏应用层上下文

NIDS 看到的是网络流量，但它不知道：

• 身份上下文：这个请求是谁发的？应用层的身份认证（OAuth、JWT、Session）在 NIDS 看来只是一个字符串，没有身份语义。• 权限上下文：这个用户在 LLM 系统里有什么权限？他是否有权访问特定类型的敏感数据？• 业务上下文：这个 LLM 应用的设计用途是什么？一个客服机器人和一个代码生成工具，应该有不同的安全策略。• 对话上下文：当前的对话历史是什么？多轮对话中，攻击者可能在前几轮建立信任、试探边界，然后在后续轮次发起攻击。NIDS 看不到这个时序上下文。

盲区 3：无法做动态干预

NIDS 的主要运行模式是被动检测。虽然 IPS 模式可以通过 TCP RST 注入来阻断连接，但这存在根本性局限：

• TCP RST 只能中断连接，无法修改请求或响应。即使检测到恶意请求，NIDS 能做的只是"截断"，而不是"消毒后放行"。• 无法做到"放行正常请求、阻断恶意请求"的细粒度控制。在 LLM 场景里，一次 API 调用可能包含99%的正常内容和1%的恶意内容。理想情况是过滤掉恶意部分、保留正常部分，但 NIDS 不具备这种能力。• 阻断一整次 API 调用可能影响业务体验。对于交互式 LLM 应用，一次 TCP 连接的断开可能意味着对话上下文的丢失，影响用户体验。

这些盲区，决定了 NIDS 适合做广覆盖的基础检测，但不适合做深度的应用层安全控制。把 NIDS 当作 LLM 安全的"全局感知层"而不是"深度防护层"，才能最大化发挥它的价值。

2. AI Firewall 的概念与定位

2.1 什么是 AI Firewall

AI Firewall 是一个较新的概念，它指的是：在 LLM 应用层部署的、专门用于保护 LLM 系统安全的安全控制层。

类比传统安全产品的发展历程，有助于理解 AI Firewall 的定位：

传统防火墙（Network Firewall）解决了网络层的访问控制问题。它根据 IP 地址、端口号、协议类型等网络层标识来控制流量能否通过。这在企业网络边界时代非常有效，但随着 HTTPS 普及，网络层可见的只是"去哪台服务器"，不再是"访问什么内容"。

Web 应用防火墙（WAF）解决了应用层（HTTP/HTTPS）的安全问题。它能解析 HTTP 请求的 URL、Header、Body，检测 SQL 注入、XSS、CSRF 等针对 Web 应用的攻击。但 WAF 看到的"内容"是结构化的 HTTP 协议，而不是 LLM 的自然语言输入。

AI Firewall 则是针对 LLM 场景的新一代安全控制层。它能理解 Prompt 和 Completion 的语义，在自然语言层面进行安全检测和控制。这是 WAF 能力边界之外的领域——WAF 不会理解"这段对话是否在试图套取系统提示词"，但 AI Firewall 需要理解。

主流安全厂商对 AI Firewall 的定义虽有差异，但核心能力基本一致：

• 输入安全：Prompt Injection 检测与阻断、恶意指令识别、敏感数据输入检测• 输出安全：响应内容安全检测、敏感信息泄露防护、有害内容过滤• 行为安全：API 调用模式分析、异常行为检测、限速与封禁• 上下文感知：对话历史管理、用户/会话上下文、应用场景识别

2.2 AI Firewall vs NIDS：能力对比

NIDS 和 AI Firewall 是两种互补的安全能力，它们的技术定位和适用场景不同：

能力维度	NIDS（heidsoft-nids）	AI Firewall
部署位置	网络层（旁路镜像或串接）	应用层（LLM 网关/袋里）
检测深度	网络流量（payload 解析）	完整 Prompt/Completion（需要解密）
输入检测	✅ HTTP body 关键词/模式	✅ 语义分析、意图识别
输出检测	❌ 难以检测（通常无响应体镜像）	✅ 完整的响应体分析
上下文感知	❌ 无（只看单次请求）	✅ 全局对话历史
动态干预	⚠️ TCP RST（粗粒度）	✅ Prompt 改写、响应过滤（细粒度）
TLS 解密	❌ 不支持（盲区）	✅ 通常需要（才能检测加密流量）
部署复杂度	低（旁路镜像流量）	高（需要串接或袋里）
性能影响	低	中-高
适用场景	广覆盖的基础检测	深度的应用层保护

两者的关系不是"谁替代谁"，而是"各有侧重、互为补充"：

• NIDS 适合做：广覆盖的基础检测、Shadow AI 发现、跨租户的全局异常检测、对延迟不敏感的离线分析场景• AI Firewall 适合做：实时拦截、高精度语义检测、需要对话上下文的场景、对延迟敏感的核心业务

2.3 AI Firewall 的核心功能模块

一个完整的 AI Firewall 通常包含以下核心功能模块，这些模块共同构成了 LLM 应用的安全防护体系：

输入安全模块是 AI Firewall 的第一道防线。它在 Prompt 进入 LLM 之前进行多维度检测：Prompt Injection 检测识别用户输入中试图覆盖系统指令的恶意内容；恶意指令识别检测越狱指令、角色扮演绕过等攻击手法；敏感数据输入检测识别 PII、凭证、机密信息等不应进入 LLM 的数据；请求频率控制和 Token 消耗限制防止资源滥用。

在干预层面，输入安全模块可以阻断恶意请求、过滤敏感数据、或对 Prompt 进行消毒处理（Sanitization）后放行。消毒处理是一种比简单阻断更智能的做法——它不是直接拒绝请求，而是移除或转义恶意部分，保留正常内容，让 LLM 仍能提供有价值的服务。

输出安全模块是 AI Firewall 的第二道防线。它在 LLM 响应返回用户之前进行检测：响应内容安全检测识别 LLM 返回的暴力、犯罪、歧视等有害内容；敏感信息泄露检测防止 LLM 不经意向外透露内部数据、系统提示词、或其他敏感信息；数据外带模式检测识别通过编码、隐写等技术试图绕过检测的隐蔽数据传输。

输出安全的干预手段包括过滤敏感输出、阻断有害内容、或对响应进行脱敏处理。脱敏处理在保持响应可用性的前提下，移除或替换敏感信息——比如将"我们的 API Key 是 sk-123456"转换为"您的 API Key 已隐藏"。

行为安全模块关注的是 API 调用层面的异常模式。这与 NIDS 的检测能力有重叠，但 AI Firewall 的优势在于有应用层上下文：它知道是谁在调用、调用频率如何、历史行为是否正常。基于这些上下文，行为安全模块可以实施动态限速（在检测到异常时自动收紧限额）、临时封禁（对确认的攻击源实施时限制裁）、和告警通知（将可疑行为上报给安全运营团队）。

上下文感知模块是 AI Firewall 区别于传统安全产品的重要特征。它维护对话历史、理解用户意图、识别应用场景，并基于这些上下文实施差异化的安全策略。同样的检测信号，在不同上下文中有完全不同的风险程度——比如"developer mode"在游戏社区的聊天机器人中可能是正常用词，但在金融行业的 LLM 助手中则高度可疑。

上下文感知还支持基于角色的访问控制（RBAC）。不同角色的用户，应该有不同的 LLM 访问权限和数据可见范围。这种细粒度的权限控制，是 NIDS 所不具备的能力。

可观测性模块为 AI Firewall 的运营提供支撑。完整日志记录保存所有请求和响应的审计轨迹；实时监控仪表盘让运营人员能够随时了解系统安全状态；告警与通知确保高风险事件能够及时触达相关人员；合规报告生成则满足监管要求的审计需求。

3. 架构演进路径：从 NIDS 到 AI Firewall

3.1 演进的第一阶段：NIDS 增强（当前阶段）

大多数组织的 LLM 安全起步于 NIDS。这个阶段的典型架构是：网络流量通过镜像或分光的方式被 NIDS 采集，NIDS 进行协议解析和安全检测，发现的告警上报给 Dashboard 或 SIEM 系统。

这种架构的优点是：

• 部署简单：不需要对现有网络架构做任何改造，旁路镜像流量对业务零影响• 覆盖广泛：只要流量经过网络，就能被检测，不依赖具体的 LLM 应用实现• 性能影响小：旁路检测不消耗业务系统的计算资源• 全局视野：能看到跨应用、跨用户的全局流量模式，这是单一应用内检测做不到的

这个阶段的缺点上文已经分析过：无法检测加密流量内容、无法做细粒度干预、缺乏上下文感知。这些限制决定了 NIDS 适合做"广覆盖的基础检测层"，而不是"深度的安全控制层"。

在实际部署中，NIDS 阶段的典型应用场景包括：

Shadow AI 发现：在没有 AI Firewall 的情况下，员工可能绕过企业批准的 LLM 应用，直接使用个人账号调用 LLM 服务商 API。这种"影子 IT"行为在 NIDS 的视角下清晰可见——企业网络中突然出现了大量指向 LLM 服务商的加密流量，而来源不是已知的 LLM 网关地址。

API Key 外带检测：当员工的 API Key 被泄露到公开场所，攻击者会用这个 Key 从外部发起调用。这种调用的源 IP 往往与员工的正常使用场景不同，NIDS 能够检测到这种"地理或网络位置异常"的调用模式。

供应链异常检测：如果 LLM 服务商或袋里服务出现异常（比如响应中包含了未请求的额外数据、或者服务突然变得不稳定），NIDS 的流量分析能够发现这些异常信号。

3.2 演进的第二阶段：LLM 网关引入

随着 LLM 应用规模扩大，很多组织会引入 LLM 网关（LLM Gateway / AI Proxy）。LLM 网关的核心定位是路由和成本控制，但它的引入为安全能力的叠加提供了基础设施。

LLM 网关的核心功能使其成为安全控制的天然切入点：

功能	说明	安全价值
路由分发	根据请求内容路由到不同的 LLM 服务商	可以实现 LLM 服务商的灵活切换和备份
负载均衡	多 API Key 时的请求分发	支持 Key 轮换和容量管理
成本控制	按用户/应用限速、限额度	防止资源滥用和经济损失
Key 管理	集中管理 API Key	避免 Key 分散在每个应用中
缓存	Prompt 缓存，减少重复调用	降低成本，但要注意缓存的安全风险
协议转换	把内部接口转换成不同 LLM 服务商的 API 格式	屏蔽不同服务商的 API 差异

这个阶段，LLM 网关主要解决的是路由和成本控制问题，安全能力主要还是依赖 NIDS。但 LLM 网关的引入，为后续安全能力的叠加奠定了基础——所有 LLM 流量都经过网关，这意味着在网关层面可以做很多 NIDS 做不了的事情。

3.3 演进的第三阶段：AI Firewall 内嵌

在 LLM 网关里内嵌 AI Firewall 能力，是架构演进的关键一步。这个阶段的架构有两个显著变化：

变化 1：NIDS 和 AI Firewall 分层部署

分层部署的核心思想是"各尽其能"：

• AI Firewall（LLM 网关层）：部署在所有 LLM 流量的必经之路上，能够做深度的输入/输出检测、细粒度的动态控制、以及基于上下文的策略执行。这一层解决的是"看得懂、管得住"的问题。• NIDS（网络层）：继续做广覆盖的基础检测、旁路监控、跨租户/跨应用的全局异常检测。这一层解决的是"看得见、查得全"的问题。

两者互为补充，不是替代关系。NIDS 看到的异常可以作为 AI Firewall 策略优化的输入；AI Firewall 拦截的威胁可以给 NIDS 提供额外的检测规则灵感。

变化 2：加密流量的处理

AI Firewall 要检测加密流量内容，有两种主要方式，各有优劣：

方式 A：TLS 终止（TLS Termination）

• 在网关处终止 TLS 连接，解密后检测明文内容，再重新加密发送到 LLM 服务商• 优势：能检测完整的请求和响应内容，支持最深度、最准确的安全检测• 劣势：需要处理 TLS 证书和私密密钥，存在数据泄露风险点；增加了延迟（解密和重新加密都需要时间）；合规层面可能有限制

方式 B：端到端加密保留（E2EE）

• 不在网关处解密，只检测 TLS 元数据（JA3/JA4 指纹、SNI、证书信息）• 配合端侧 Agent 或 SDK 做内容检测（但这引入了额外的部署复杂度）• 优势：隐私保护更好，不需要在网关处理明文；性能影响较小• 劣势：检测能力受限，只能做流量模式分析，无法做内容语义检测

大多数商业 AI Firewall 产品采用方式 A，因为安全检测的准确性是第一优先级。方式 B 更多用于对隐私要求极高的场景，或者作为方式 A 的补充手段。

3.4 演进的第四阶段：零信任 AI 架构

最终阶段的架构是零信任 AI 架构。零信任（Zero Trust）的核心理念是**"永不信任，始终验证"**——这在 LLM 安全场景下尤为重要，因为 LLM 的输入输出都是自然语言，难以用传统的网络层规则来判断"是否可信"。

零信任 AI 架构的核心特征：

身份优先：所有 LLM 访问都必须有明确的身份标识。这个身份可以是用户、应用、或服务账号。每个身份都关联到具体的权限范围——比如某个身份只能访问特定类型的 LLM 服务，只能获取特定范围的数据，只能执行特定类型的操作。

最小权限：每个身份只能访问被授权的 LLM 服务和操作。这听起来理所当然，但在实践中往往被忽视——很多 LLM 应用的 API Key 一旦泄露，攻击者就获得了完全访问权限，没有任何权限边界。零信任 AI 架构要求每个 Key、每个身份都有精确的权限定义。

微分段：不同安全域（生产环境、测试环境、研发环境）有不同的 AI Firewall，适用不同的安全策略。生产环境的安全策略最严格，测试环境可以适度放宽（以支持功能测试），研发环境则可以更加灵活。微分段的好处是：一处出现的安全问题，不会自动扩散到其他安全域。

持续验证：每次 LLM 调用都要验证权限和风险评分。这意味着安全评估不是"一次认证、永久通过"，而是每次请求都要重新评估。即使一个身份在上一秒是可信的，如果当前请求触发了风险规则，下一秒就可能被拒绝。

假设 Breach：即使流量加密，也要检测异常行为。这是零信任理念的延伸——不依赖"流量加密就等于安全"的假设，而是持续监控行为异常。攻击者可能已经取得了合法身份的凭证，但他的使用模式往往与合法用户不同。

统一可观测性：日志、指标、链路追踪、告警统一管理。分散的安全数据无法支撑全局的风险评估和安全决策。零信任 AI 架构要求所有安全数据都能汇聚到统一平台，支持跨系统、跨时间的关联分析。

4. heidsoft-nids 在架构演进中的位置

4.1 当前定位

heidsoft-nids 作为开源 NIDS，在 LLM 安全架构里的当前定位是**"广覆盖的基础检测层"**。它不追求替代 AI Firewall 的深度检测能力，而是专注于 NIDS 擅长的领域：网络层的全局流量可见性。

heidsoft-nids 的核心价值在于：

第一，广覆盖的基础检测层。它不依赖 TLS 解密，能在网络层看到所有 LLM API 流量（无论这些流量经过多少个应用、多少个服务）。只要流量经过网络，就能被检测。这种覆盖能力是部署在应用层的 AI Firewall 所不具备的——如果某个 LLM 应用没有经过 AI Gateway，或者员工直接用个人设备访问 LLM 服务，AI Firewall 可能就看不见了，但 NIDS 依然能检测到。

第二，能检测 Shadow AI。Shadow AI 是指绕过企业批准的 LLM 应用，直接使用 LLM 服务的行为。这种行为往往意味着合规风险（比如员工可能在与外部 LLM 服务共享敏感数据）或安全风险（比如员工账号可能已经被入侵）。heidsoft-nids 能通过网络流量分析发现这种"不在预期内的 LLM 调用"。

第三，全局视角的异常检测。NIDS 能看到跨租户、跨应用的聚合流量模式。这意味着它能检测到"多个不同来源的请求，都在向同一个外部 LLM 服务发送数据"这种可能意味着数据外带的聚合异常。这种全局视野，是单一应用内检测所无法提供的。

第四，开源可控。heidsoft-nids 是开源项目，企业可以自由使用、修改、审计代码。在安全领域，"开源可控"意味着不需要依赖厂商支持，就能理解系统的实际行为；不需要担心厂商锁定，就能灵活适配业务需求。

heidsoft-nids 的局限性同样明确：

• 无法做深度内容检测：对于加密流量，heidsoft-nids 只能分析元数据，无法做语义级的内容检测• 无法做细粒度的动态干预：它能检测到异常，但能做的最强制干预只是 TCP RST 阻断，无法实现 Prompt 改写、响应过滤等细粒度控制• 缺乏上下文感知：它不知道对话历史、用户身份、应用场景，同一个检测信号在不同上下文中有完全不同的含义

4.2 未来演进方向

heidsoft-nids 可以向以下方向演进，这些演进方向遵循"渐进式增强"的原则，每个阶段都能提供增量价值：

演进方向 1：增强 TLS 元数据检测

即使无法解密 TLS 流量，TLS 握手过程中交换的元数据仍然包含丰富的信息。JA3/JA4 指纹是通过 TLS Client Hello 消息中的版本、加密套件、扩展列表等信息计算得出的哈希值，不同的 LLM 服务商、不同的 API 客户端，JA3/JA4 指纹往往不同。

通过持续维护已知 LLM 服务商的 JA3/JA4 指纹库，heidsoft-nids 能够在不解密的情况下：

• 识别流量的 LLM 服务商归属（是 OpenAI 还是 Anthropic 还是其他）• 发现流向未知或未批准 LLM 服务商的流量• 检测 TLS 指纹异常——如果一个"应该是 OpenAI"的流量，但 JA3 指纹与已知 OpenAI 客户端不符，可能意味着某种绕过行为

这种能力的增强，不需要对架构做重大改变，只需要在现有流量解析模块基础上增加 TLS 指纹提取和比对逻辑。

演进方向 2：威胁情报集成

接入第三方威胁情报，可以显著提升检测能力。高质量的威胁情报包含：

• 恶意 IP 列表：已知的攻击源、僵尸网络、C2 服务器等 IP 地址• 恶意域名列表：已知的钓鱼站点、恶意软件分发站点等域名• 泄露的 API Key：公开泄露的 LLM 服务商 API Key（通过 GitHub 监控、凭证泄露监控等渠道获取）

将威胁情报与流量检测结合，heidsoft-nids 能够：

• 在发现流量指向已知恶意 IP 时立即告警• 在发现流量目的地是已知恶意域名时立即告警• 在发现 API Key 与已知泄露 Key 匹配时立即告警

威胁情报的价值在于"站在巨人的肩膀上"——情报供应商积累的检测规则和样本数据，远超单一组织能够积累的规模。集成威胁情报后，heidsoft-nids 能够检测到更多的已知威胁模式，减少误报（已知恶意 vs 已知良性）和漏报（新型威胁）。

演进方向 3：SIEM 深度集成

安全信息和事件管理（SIEM）系统是企业安全运营的中心枢纽。heidsoft-nids 与 SIEM 的深度集成，可以实现：

标准化日志格式：将告警日志转换为 CEF（Common Event Format）或 OCSF（Open Cybersecurity Schema Framework）等行业标准格式，确保能够被各种 SIEM 系统正确解析和处理。

多源关联分析：将 heidsoft-nids 的告警与其他安全数据源（网络防火墙、WAF、身份认证系统、终端检测系统等）的日志进行关联，发现单一数据源看不到的复杂攻击路径。

上下文富化：从 CMDB（配置管理数据库）获取资产信息，从威胁情报平台获取 IP 信誉，从身份系统获取用户信息，让每一条告警都有足够的上下文支撑安全决策。

合规报告生成：满足监管要求的审计报告，比如"过去一个月内向境外 LLM 服务商传输的数据量"、"检测到的敏感信息外带事件汇总"等。

演进方向 4：自动化响应集成

与安全编排、自动化和响应（SOAR）平台联动，可以实现检测到响应的自动化：

• 自动封禁：对于高置信度的攻击行为（如检测到 API Key 已被泄露并正在被滥用），自动在网络层实施封禁，阻断攻击源• 自动通知：将告警自动推送给相关安全人员，根据告警级别选择不同的通知渠道和升级路径• 自动票据创建：为每个需要调查的事件自动在工单系统中创建工单，确保所有告警都有追踪记录

自动化响应的目标不是"完全替代人工"，而是"让人工专注于真正需要判断力的事情"。对于高置信度的已知攻击模式，自动化响应可以节省大量的人工操作时间；对于需要判断的复杂事件，自动化的票据创建和通知确保人工能够及时介入。

5. 业界参考架构

5.1 云服务商的安全架构参考

主流云服务商的 LLM 安全架构有一些共同的设计模式，这些模式经过了大规模生产环境的验证，是值得参考的实践：

模式 1：分层防御（Defense in Depth）

分层防御是一种经典的安全设计原则，它的核心思想是"多层检查、相互补位"。即使某一层被突破，其他层仍然能够提供保护。

在 LLM 安全场景下，分层防御可以这样设计：

Layer 1：身份认证层。这是最外层，负责验证请求者的身份。手段包括 API Key 验证、JWT/OAuth 令牌验证、基于角色的访问控制（RBAC）。这一层解决的是"你是不是合法用户"的问题。

Layer 2：输入安全层。在身份认证通过后，对用户的输入进行安全检测。手段包括 Prompt 安全性检测（检测注入攻击）、敏感数据识别与脱敏（识别并遮蔽 PII、凭证等敏感信息）、请求速率限制（防止资源滥用）。这一层解决的是"你的输入是否安全"的问题。

Layer 3：模型执行层。这是 LLM 实际执行推理的层面。安全手段包括模型沙箱隔离（限制模型对系统资源的访问）、资源配额控制（防止某个请求消耗过多计算资源）、执行时间限制（防止无限循环或长时间运行）。这一层解决的是"模型运行是否安全可控"的问题。

Layer 4：输出安全层。在模型返回结果后，对输出进行安全检测。手段包括内容安全检测（识别暴力、犯罪、歧视等有害内容）、数据泄露防护（防止模型返回不应暴露的敏感信息）、审计日志记录（保存所有输入输出的完整记录）。这一层解决的是"模型输出是否安全"的问题。

Layer 5：监控响应层。这是贯穿所有层次的支撑性能力。手段包括实时监控仪表盘（让运营人员随时了解系统状态）、异常行为检测（基于统计或机器学习方法发现偏离正常模式的行为）、自动响应机制（对确认的威胁实施阻断或限流）。这一层解决的是"如何及时发现和处理问题"的问题。

模式 2：零信任 API 访问

零信任 API 访问将零信任理念应用到 LLM API 的调用场景：

整个访问流程是这样的：API 请求首先到达身份提供商进行身份验证；验证通过后，请求被路由到策略引擎进行 ABAC（基于属性的访问控制）策略检查；策略引擎根据请求属性（用户身份、应用类型、数据敏感级别等）决定是否放行；通过策略检查后，请求进入风险评分模块，根据多个维度的信号（历史行为模式、请求特征、上下文信息等）计算实时风险评分；高风险的请求可能被拒绝或需要额外验证；最后，请求到达 AI Firewall，对 Prompt 和响应进行最后的安全检查，然后转发给 LLM 服务商。

这个流程体现了零信任的核心原则：每一次访问都要经过完整的验证链路，没有任何一层是可选的。

5.2 开源参考项目

开源社区在 LLM 安全领域也有不少值得关注的项目：

项目	定位	特点
heidsoft-nids	NIDS	网络层 LLM 安全检测，开源免费，适合做广覆盖的基础检测
PortSwigger Burp Suite	Web 安全工具	可用于 LLM API 安全测试，支持手动构造和修改 LLM API 请求
Watson	LLM 安全工具	专注于 Prompt 注入检测，提供多种注入检测方法
LLM Guard	AI Firewall	输入/输出安全扫描，开源，支持多种 LLM 提供商
Braintrust	LLM 评估平台	提供安全评估框架，支持红队测试和自动化评估

这些项目各有侧重，可以组合使用：heidsoft-nids 提供网络层的全局可见性，LLM Guard 提供应用层的深度检测，Burp Suite 支持手工安全测试，Braintrust 提供评估和红队能力。

5.3 商业产品参考

主流安全厂商已经看到 LLM 安全的市场机会，陆续推出了相关产品：

产品	厂商	定位
AI Access Security	Palo Alto	完整的 AI Firewall 功能，包括输入/输出检测、行为分析、上下文感知
AI Security Posture Management	Microsoft	与 Azure AI 深度集成，提供 AI 相关的安全态势管理
AI Protection	FORTRA	数据泄露防护 AI 安全，结合了 DLP 能力和 AI 检测能力
AI Gateway	Cribl	AI 流量的可观测性，帮助企业了解 LLM API 的使用情况
AI Security	Broadcom	网络层 AI 安全检测，与现有网络基础设施集成

这些商业产品的共同特点是：深度集成到各自的生态系统中，提供端到端的安全能力。但它们的局限也很明显：价格昂贵、可能存在厂商锁定、数据隐私方面需要考虑与供应商的信任关系。

6. 架构决策的关键考量

6.1 自研 vs 购买

在 LLM 安全架构建设中，自研和购买各有优劣，没有绝对的好坏之分，关键在于理解不同选择的长期影响：

维度	自研	购买商业产品
灵活性	✅ 完全可控，可定制，适合特殊业务场景	⚠️ 受产品功能限制，定制可能需要额外费用
成本	⚠️ 研发成本高，需要专业团队	✅ 订阅制成本可控，适合快速起步
时间	⚠️ 开发周期长，6-12 个月可能才见成效	✅ 快速上线，商业产品通常开箱即用
专业能力	⚠️ 需要招募或培养 LLM 安全专家	✅ 供应商有专业知识，产品经过市场验证
维护	⚠️ 持续维护负担，团队需要不断跟进新威胁	✅ 供应商持续更新，跟进新攻击手法
数据隐私	✅ 数据完全自主，不存在数据泄露给第三方的风险	⚠️ 可能需要共享数据给供应商（取决于部署模式）

实际建议：

• 短期（0-6 个月）：先用开源工具（如 heidsoft-nids）和商业产品的试用版本快速建立基础防护。这个阶段的目标是"先看见"，而不是"先管住"。• 中期（6-18 个月）：根据自有业务特点，选择性自研核心能力。比如，如果你的业务有特殊的合规要求，通用商业产品可能不满足，此时可以自研部分模块。• 长期（18 个月）：建设自有安全平台，形成差异化竞争力。如果 LLM 安全成为你所在行业的核心竞争力之一，自研是必然选择。

6.2 集中式 vs 分布式

另一个重要的架构决策是安全能力的部署方式，它影响运营效率、安全效果和组织协作：

模式	说明	适用场景
集中式	所有 LLM 流量汇聚到中心节点检测	中小规模、多部门共用 LLM 服务的企业
分布式	各业务线/部门独立部署	大型企业、多业务线独立运营，各业务线有较强的自主权
混合式	中心做策略管理和全局监控，边缘做检测执行	大型复杂组织，兼顾统一管理和区域自治

集中式部署的优势在于运营效率——统一的安全策略、统一的安全数据、统一的安全运营。安全团队可以在单一平台上看到全局风险，不需要维护多套系统。但它的局限在于灵活性——如果某个业务线有特殊的安全需求，可能难以得到满足。

分布式部署的优势在于灵活性——每个业务线可以根据自己的需求定制安全策略。但代价是运营复杂度——多套系统需要多套维护能力，数据分散难以进行全局风险评估。

混合式部署试图在两者之间取得平衡。中心节点负责策略制定、全局监控、跨区域的关联分析；边缘节点负责本地检测和执行。这种架构适合大型复杂组织，比如总部有统一的安全要求和平台，各地区/业务线有自己的安全运营团队。

6.3 性能与安全的平衡

LLM API 调用对延迟敏感——一次对话交互的响应时间，可能直接影响用户体验。安全检测不能成为性能瓶颈，否则用户会绕过安全控制，或者抱怨系统太慢。

性能优化的核心策略：

分流策略是第一步。不是所有的流量都需要同等的检测深度。通过简单的规则（如来源 IP 白名单、目的域名白名单）快速判断"这是可信流量"，可以大幅减少需要深度检测的流量比例。可信流量走快速路径，只做基础记录；可疑流量走深度检测路径，做完整的语义分析。

异步处理是第二步。深度检测（比如需要语义分析的安全判断）往往耗时较长，不适合在请求的主流程中同步执行。可以采用这样的架构：请求先放行，深度检测异步执行，如果异步检测发现恶意行为，再对已经放行的请求进行补偿处理（如通知、阻断后续请求）。这种架构牺牲了一点"实时性"，换取了"不阻塞业务"。

智能缓存是第三步。如果一个 Prompt 及其响应已经被检测过且判定为良性，后续遇到相同或相似的 Prompt 时可以直接复用检测结果，而不需要重新检测。缓存的设计需要注意安全考虑——缓存命中的请求，是否意味着敏感数据被留存在缓存中？缓存数据的生命周期如何管理？

采样策略是第四步。对于海量流量的场景，可以采用智能采样：正常流量抽样检测（如 10%），既能满足合规要求又节省资源；高风险流量（比如触发某些初始规则的请求）100% 全量检测；触发告警的流量自动切换到全量深度检测，用于确认和取证。

7. 实施路线图

7.1 典型实施阶段

大多数组织的 LLM 安全架构建设可以分为三个阶段，每个阶段都有明确的目标、交付物和责任分工：

第一阶段：基础防护阶段（1-3 个月）

这个阶段的目标是"先看见"——建立 LLM 服务清单，了解当前有多少 LLM 流量、在流向哪些服务商、流量特征是什么。

核心交付物包括：LLM 服务清单和分类（哪些是已批准的、哪些是未知的）、heidsoft-nids 或等效 NIDS 的部署（至少覆盖主要的互联网出口）、基础告警规则（Prompt Injection 关键词、API Key 外带特征）、安全策略文档（定义什么是允许的 LLM 使用、什么是不允许的）。

这个阶段的关键成功因素是业务部门的配合——只有了解有哪些 LLM 应用在运行，安全检测才能有的放矢。建议由安全团队主导，但需要业务团队的积极参与。

第二阶段：能力增强阶段（3-6 个月）

在"看见"的基础上，这个阶段的目标是"能管住"——深化检测能力，建立事件响应流程，评估是否需要引入 AI Firewall。

核心交付物包括：Slow Stealth 检测能力（基于统计基线的异常行为检测）、供应链风险检测（第三方袋里服务异常、LLM 服务商异常）、事件响应流程和剧本（定义什么情况下做什么事情）、AI Firewall 评估和选型（如适用）、员工安全培训（提升全员 LLM 安全意识）。

这个阶段的关键成功因素是运营能力的建设——检测规则和事件响应流程的价值，只有在持续运营中才能体现。建议组建专门的安全运营团队（或至少指定专人负责），负责日常的告警处理和规则优化。

第三阶段：优化成熟阶段（6-12 个月）

在前两个阶段的基础上，这个阶段的目标是"成体系"——持续优化检测规则，建设安全平台能力，提升自动化响应水平，形成完整的治理体系。

核心交付物包括：成熟度评估（对照 LLM 安全成熟度模型，评估当前水平）、安全平台建设（SIEM/SOAR 集成、自动化响应能力）、治理框架完整落地（组织、政策、流程、人员的闭环）、定期红蓝对抗演练（验证安全能力的有效性）。

这个阶段的关键成功因素是持续投入的决心——LLM 安全不是"一次建设、永久有效"的事情。攻击技术在演进，业务在变化，检测规则需要持续优化。建议建立定期的规则审查机制（至少每季度一次），根据误报率和漏报情况调整检测策略。

持续运营是所有阶段之后的持续活动：定期规则更新（跟进新威胁和新攻击模式）、定期告警回顾和优化（减少误报、提升检出率）、定期红蓝对抗演练（验证安全能力）、定期治理审查和策略更新（确保安全策略与业务同步）、定期员工培训（提升安全意识）。

7.2 资源估算

不同阶段的资源投入差异显著：

**第一阶段（基础防护）**通常需要 0.5-1 FTE 的兼职投入（安全团队成员兼顾），预算在 30-50 万元（含开源工具部署成本、培训费用、初期咨询服务）。时间线 1-3 个月。这个阶段的投入主要用于"看见"——建立基础的检测能力，不需要太多商业工具。

**第二阶段（能力增强）**通常需要 1-2 FTE 的专职投入，预算在 100-300 万元（含商业工具采购或 AI Firewall 评估、威胁情报订阅、专业服务费用）。时间线 3-6 个月。这个阶段的投入主要用于"管住"——深化检测能力和运营能力，商业工具的引入可以加速这个过程。

**第三阶段（优化成熟）**通常需要 2-4 FTE 的专职团队（取决于组织规模），预算在 300-800 万元（含平台建设、持续运营、专业服务）。时间线 6-12 个月，并需要持续运营。这个阶段的投入主要用于"成体系"——建设完整的安全平台和治理体系。

8. 结语：这个系列的思考

8.1 回到起点

回到这个系列的第一篇文章——我们讨论的是：如何把 Prompt Injection 变成"可观测、可运营"的网络事件。

现在，系列结束，我们看到的是：

• 可观测性：NIDS 提供了网络侧的基础可见性，能检测 Prompt Injection、API Key 外带、供应链异常。看不见就谈不上安全，NIDS 的核心价值在于"让看不见的流量变得可见"。• 可运营：治理框架、事件响应流程、持续监控让检测能力真正落地。技术能力只有转化为运营能力，才能产生持续价值。这需要组织、流程、人员的配套。• 技术演进：从 NIDS 到 AI Firewall，LLM 安全的技术架构在不断深化。每一种技术架构都有它的适用场景和天然局限，理解这些边界，才能正确使用每种工具。

8.2 他山之石

这个系列借鉴了多个领域的最佳实践：

• 网络安全的成熟方法：IDS/IPS 的检测理念、SIEM/SOAR 的运营体系、分层防御的架构思想——这些 decades of 安全建设的经验，在 LLM 安全场景下依然适用。• 应用安全的实践经验：WAF 的防护思路、API Gateway 的部署模式——这些经过验证的手段，可以迁移到 AI Firewall 的设计中。• 数据安全的治理框架：数据分类分级、敏感信息识别、DLP 的策略设计——LLM 处理的数据同样需要这些保护手段。• AI/ML 的专业知识：Prompt Injection 的攻击手法、模型安全的基本概念、AI 红队的评估方法——理解攻击是设计防御的前提。

把这些跨领域的知识融合起来，才构成了 LLM 安全的完整视角。LLM 安全不是一个全新的领域，而是传统安全能力在 LLM 场景下的新应用。

8.3 他山之石，可以攻玉

本系列的核心理念是：传统安全的能力积累，在 LLM 安全里依然有价值。

这不是说 LLM 安全没有独特性——Prompt 的语义理解、对话上下文的分析、LLM 特有的攻击手法，都有其独特性。但独特性不等于"从零开始"。

很多组织在建设 LLM 安全时，会陷入一个误区：认为 LLM 安全太新了，传统安全的思路和方法不适用。这种想法可能导致重复造轮子——花费大量资源去"发明"一个在传统安全领域已经非常成熟的技术。

实际上，NIDS 不是过时技术，它在 LLM 安全的网络侧检测里依然不可替代。即使 AI Firewall 成为标配，NIDS 仍然有其价值：发现 Shadow AI、检测跨租户异常、提供全局流量视野。

WAF 的防护思路，可以迁移到 AI Firewall 的设计里。输入验证、输出过滤、速率限制——这些 WAF 的核心功能，在 AI Firewall 中依然是基础能力。

数据安全的治理框架，可以指导 LLM 数据的分类和保护。哪些数据可以输入到 LLM？哪些 LLM 输出需要特别关注？这些问题在传统数据安全中已经有成熟的方法论。

安全运营的成熟方法论，可以让 LLM 安全真正落地。检测-响应-处置的闭环、告警的分级和升级、定期的规则审查——这些运营实践，在 LLM 安全场景下同样适用。

不是 LLM 安全需要颠覆一切，而是现有安全能力需要在 LLM 场景里找到新的用武之地。

8.4 最后的思考

LLM 安全不是一个产品能解决的问题，也不是一个团队能独立承担的责任。

它需要：

• 技术的深度：理解 LLM 的攻击面和防护方法，需要持续跟进最新的攻击手法和研究成果• 运营的广度：让检测能力真正落地，形成持续运营，需要组织流程和人员能力的配套• 治理的高度：让技术能力在正确的框架下发挥价值，需要管理层的支持和跨团队的协作

技术、运营、治理，三者缺一不可。没有技术能力，治理框架是空中楼阁；没有运营体系，技术能力无法持续发挥价值；没有治理框架，技术能力可能被滥用或被忽视。

但真正的 LLM 安全，需要你在自己的组织里，把技术、运营、治理三者整合起来，形成适合你所在组织的 LLM 安全实践。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2026-05-10，如有侵权请联系[email protected] 删除

喜欢(0)

Hermes vs Harness：从“会思考”到“可控制”：AI Agent 的系统工程本质

软件测试演义——中高级系列（序）