《猫猫钓游记》可爱+收集+钓鱼游戏试玩
2026-06-30
2026-07-02 0
这是本系列的最后一讲。

在前七讲里,我们从攻击技术(Series 01-03)、到供应链风险和持续性威胁(Series 04-05)、到事件响应和治理框架(Series 06-07),构建了一个完整的 LLM 安全知识体系。
这一讲,我们回到技术本身,探讨一个更宏观的问题:LLM 安全的技术架构应该如何演进?
具体来说:
• NIDS 在 LLM 安全里的定位是什么?• AI Firewall 是什么,跟传统防火墙有什么区别?• 从 heidsoft-nids 这样的 NIDS,到完整的 AI Firewall,中间有哪些架构演进的路径?• 他山之石:业界有哪些值得参考的架构实践?Network Intrusion Detection System(NIDS)的核心价值是网络侧的可观测性。
它站在网络层,看到的是:
• 所有流量:不依赖应用层的埋点,不影响业务性能。无论 LLM 应用如何分布、如何实现,所有对外的 API 调用都会经过网络层,这使得 NIDS 成为一种与具体应用无关的通用检测手段。• 原始数据:HTTP body、TLS handshake 元数据(JA3/JA4 指纹)。这些数据不经过应用层的"过滤",能真实反映网络上正在发生什么。• 全局视图:能看到整个网络里不同系统之间的交互。这种跨系统的视野,是单一应用内检测所不具备的。• 攻击者视角:攻击者的行为特征(源 IP、目的地、请求模式)在网络侧一览无余。即使攻击者试图通过应用层的混淆来隐藏行为,网络层往往仍能捕捉到异常。这些价值在 LLM 安全场景里依然成立,只是需要针对 LLM API 的特点进行适配:
NIDS 能力 | LLM 安全场景 | 检测价值 |
|---|---|---|
HTTP 流量解析 | 检测 Prompt Injection、API Key 外带 | 能看到完整的请求内容,发现关键词攻击和凭证泄露 |
TLS 元数据 | 识别 LLM 服务商流量(JA3 指纹) | 无需解密即可识别流量去向,实现 Shadow AI 发现 |
连接跟踪 | 检测异常 API 调用模式 | 发现 Slow Stealth 攻击等时间维度异常 |
规则引擎 | 自定义 LLM 安全检测规则 | 灵活应对新型攻击手法 |
全局流量视图 | 检测 Slow Stealth、供应链攻击 | 跨租户、跨应用的聚合分析能力 |
但 NIDS 也有它解决不了的问题。这些盲区不是 NIDS 的"缺陷",而是它技术定位上的天然边界。理解这些边界,是正确使用 NIDS 的前提。
盲区 1:加密流量的内容不可见
即使 TLS 解密技术可用,如果 LLM 服务商使用端到端加密,NIDS 依然看不到请求体和响应体的内容。这意味着:
• Prompt Injection 的完整检测依赖关键词或模式匹配,无法做真正的语义分析。当攻击者使用同义词替换、编码混淆等技术时,检测效果会大打折扣。• 响应体里的恶意内容无法被检测到。如果 LLM 返回了敏感数据或恶意指令,而该响应经过加密传输,NIDS 将无法感知。• 语义级的攻击在网络侧不可见。比如"请描述如何绕过安全检测"这样的请求,看起来只是一个普通的翻译或问答请求,但在语义层面它是在寻求攻击信息。盲区 2:缺乏应用层上下文
NIDS 看到的是网络流量,但它不知道:
• 身份上下文:这个请求是谁发的?应用层的身份认证(OAuth、JWT、Session)在 NIDS 看来只是一个字符串,没有身份语义。• 权限上下文:这个用户在 LLM 系统里有什么权限?他是否有权访问特定类型的敏感数据?• 业务上下文:这个 LLM 应用的设计用途是什么?一个客服机器人和一个代码生成工具,应该有不同的安全策略。• 对话上下文:当前的对话历史是什么?多轮对话中,攻击者可能在前几轮建立信任、试探边界,然后在后续轮次发起攻击。NIDS 看不到这个时序上下文。盲区 3:无法做动态干预
NIDS 的主要运行模式是被动检测。虽然 IPS 模式可以通过 TCP RST 注入来阻断连接,但这存在根本性局限:
• TCP RST 只能中断连接,无法修改请求或响应。即使检测到恶意请求,NIDS 能做的只是"截断",而不是"消毒后放行"。• 无法做到"放行正常请求、阻断恶意请求"的细粒度控制。在 LLM 场景里,一次 API 调用可能包含99%的正常内容和1%的恶意内容。理想情况是过滤掉恶意部分、保留正常部分,但 NIDS 不具备这种能力。• 阻断一整次 API 调用可能影响业务体验。对于交互式 LLM 应用,一次 TCP 连接的断开可能意味着对话上下文的丢失,影响用户体验。这些盲区,决定了 NIDS 适合做广覆盖的基础检测,但不适合做深度的应用层安全控制。把 NIDS 当作 LLM 安全的"全局感知层"而不是"深度防护层",才能最大化发挥它的价值。
AI Firewall 是一个较新的概念,它指的是:在 LLM 应用层部署的、专门用于保护 LLM 系统安全的安全控制层。
类比传统安全产品的发展历程,有助于理解 AI Firewall 的定位:
传统防火墙(Network Firewall) 解决了网络层的访问控制问题。它根据 IP 地址、端口号、协议类型等网络层标识来控制流量能否通过。这在企业网络边界时代非常有效,但随着 HTTPS 普及,网络层可见的只是"去哪台服务器",不再是"访问什么内容"。
Web 应用防火墙(WAF) 解决了应用层(HTTP/HTTPS)的安全问题。它能解析 HTTP 请求的 URL、Header、Body,检测 SQL 注入、XSS、CSRF 等针对 Web 应用的攻击。但 WAF 看到的"内容"是结构化的 HTTP 协议,而不是 LLM 的自然语言输入。
AI Firewall 则是针对 LLM 场景的新一代安全控制层。它能理解 Prompt 和 Completion 的语义,在自然语言层面进行安全检测和控制。这是 WAF 能力边界之外的领域——WAF 不会理解"这段对话是否在试图套取系统提示词",但 AI Firewall 需要理解。
主流安全厂商对 AI Firewall 的定义虽有差异,但核心能力基本一致:
• 输入安全:Prompt Injection 检测与阻断、恶意指令识别、敏感数据输入检测• 输出安全:响应内容安全检测、敏感信息泄露防护、有害内容过滤• 行为安全:API 调用模式分析、异常行为检测、限速与封禁• 上下文感知:对话历史管理、用户/会话上下文、应用场景识别NIDS 和 AI Firewall 是两种互补的安全能力,它们的技术定位和适用场景不同:
能力维度 | NIDS(heidsoft-nids) | AI Firewall |
|---|---|---|
部署位置 | 网络层(旁路镜像或串接) | 应用层(LLM 网关/袋里) |
检测深度 | 网络流量(payload 解析) | 完整 Prompt/Completion(需要解密) |
输入检测 | ✅ HTTP body 关键词/模式 | ✅ 语义分析、意图识别 |
输出检测 | ❌ 难以检测(通常无响应体镜像) | ✅ 完整的响应体分析 |
上下文感知 | ❌ 无(只看单次请求) | ✅ 全局对话历史 |
动态干预 | ⚠️ TCP RST(粗粒度) | ✅ Prompt 改写、响应过滤(细粒度) |
TLS 解密 | ❌ 不支持(盲区) | ✅ 通常需要(才能检测加密流量) |
部署复杂度 | 低(旁路镜像流量) | 高(需要串接或袋里) |
性能影响 | 低 | 中-高 |
适用场景 | 广覆盖的基础检测 | 深度的应用层保护 |
两者的关系不是"谁替代谁",而是"各有侧重、互为补充":
• NIDS 适合做:广覆盖的基础检测、Shadow AI 发现、跨租户的全局异常检测、对延迟不敏感的离线分析场景• AI Firewall 适合做:实时拦截、高精度语义检测、需要对话上下文的场景、对延迟敏感的核心业务一个完整的 AI Firewall 通常包含以下核心功能模块,这些模块共同构成了 LLM 应用的安全防护体系:
输入安全模块是 AI Firewall 的第一道防线。它在 Prompt 进入 LLM 之前进行多维度检测:Prompt Injection 检测识别用户输入中试图覆盖系统指令的恶意内容;恶意指令识别检测越狱指令、角色扮演绕过等攻击手法;敏感数据输入检测识别 PII、凭证、机密信息等不应进入 LLM 的数据;请求频率控制和 Token 消耗限制防止资源滥用。
在干预层面,输入安全模块可以阻断恶意请求、过滤敏感数据、或对 Prompt 进行消毒处理(Sanitization)后放行。消毒处理是一种比简单阻断更智能的做法——它不是直接拒绝请求,而是移除或转义恶意部分,保留正常内容,让 LLM 仍能提供有价值的服务。
输出安全模块是 AI Firewall 的第二道防线。它在 LLM 响应返回用户之前进行检测:响应内容安全检测识别 LLM 返回的暴力、犯罪、歧视等有害内容;敏感信息泄露检测防止 LLM 不经意向外透露内部数据、系统提示词、或其他敏感信息;数据外带模式检测识别通过编码、隐写等技术试图绕过检测的隐蔽数据传输。
输出安全的干预手段包括过滤敏感输出、阻断有害内容、或对响应进行脱敏处理。脱敏处理在保持响应可用性的前提下,移除或替换敏感信息——比如将"我们的 API Key 是 sk-123456"转换为"您的 API Key 已隐藏"。
行为安全模块关注的是 API 调用层面的异常模式。这与 NIDS 的检测能力有重叠,但 AI Firewall 的优势在于有应用层上下文:它知道是谁在调用、调用频率如何、历史行为是否正常。基于这些上下文,行为安全模块可以实施动态限速(在检测到异常时自动收紧限额)、临时封禁(对确认的攻击源实施时限制裁)、和告警通知(将可疑行为上报给安全运营团队)。
上下文感知模块是 AI Firewall 区别于传统安全产品的重要特征。它维护对话历史、理解用户意图、识别应用场景,并基于这些上下文实施差异化的安全策略。同样的检测信号,在不同上下文中有完全不同的风险程度——比如"developer mode"在游戏社区的聊天机器人中可能是正常用词,但在金融行业的 LLM 助手 中则高度可疑。
上下文感知还支持基于角色的访问控制(RBAC)。不同角色的用户,应该有不同的 LLM 访问权限和数据可见范围。这种细粒度的权限控制,是 NIDS 所不具备的能力。
可观测性模块为 AI Firewall 的运营提供支撑。完整日志记录保存所有请求和响应的审计轨迹;实时监控仪表盘让运营人员能够随时了解系统安全状态;告警与通知确保高风险事件能够及时触达相关人员;合规报告生成则满足监管要求的审计需求。
大多数组织的 LLM 安全起步于 NIDS。这个阶段的典型架构是:网络流量通过镜像或分光的方式被 NIDS 采集,NIDS 进行协议解析和安全检测,发现的告警上报给 Dashboard 或 SIEM 系统。
这种架构的优点是:
• 部署简单:不需要对现有网络架构做任何改造,旁路镜像流量对业务零影响• 覆盖广泛:只要流量经过网络,就能被检测,不依赖具体的 LLM 应用实现• 性能影响小:旁路检测不消耗业务系统的计算资源• 全局视野:能看到跨应用、跨用户的全局流量模式,这是单一应用内检测做不到的这个阶段的缺点上文已经分析过:无法检测加密流量内容、无法做细粒度干预、缺乏上下文感知。这些限制决定了 NIDS 适合做"广覆盖的基础检测层",而不是"深度的安全控制层"。
在实际部署中,NIDS 阶段的典型应用场景包括:
Shadow AI 发现:在没有 AI Firewall 的情况下,员工可能绕过企业批准的 LLM 应用,直接使用个人账号调用 LLM 服务商 API。这种"影子 IT"行为在 NIDS 的视角下清晰可见——企业网络中突然出现了大量指向 LLM 服务商的加密流量,而来源不是已知的 LLM 网关地址。
API Key 外带检测:当员工的 API Key 被泄露到公开场所,攻击者会用这个 Key 从外部发起调用。这种调用的源 IP 往往与员工的正常使用场景不同,NIDS 能够检测到这种"地理或网络位置异常"的调用模式。
供应链异常检测:如果 LLM 服务商或袋里服务出现异常(比如响应中包含了未请求的额外数据、或者服务突然变得不稳定),NIDS 的流量分析能够发现这些异常信号。
随着 LLM 应用规模扩大,很多组织会引入 LLM 网关(LLM Gateway / AI Proxy)。LLM 网关的核心定位是路由和成本控制,但它的引入为安全能力的叠加提供了基础设施。
LLM 网关的核心功能使其成为安全控制的天然切入点:
功能 | 说明 | 安全价值 |
|---|---|---|
路由分发 | 根据请求内容路由到不同的 LLM 服务商 | 可以实现 LLM 服务商的灵活切换和备份 |
负载均衡 | 多 API Key 时的请求分发 | 支持 Key 轮换和容量管理 |
成本控制 | 按用户/应用限速、限额度 | 防止资源滥用和经济损失 |
Key 管理 | 集中管理 API Key | 避免 Key 分散在每个应用中 |
缓存 | Prompt 缓存,减少重复调用 | 降低成本,但要注意缓存的安全风险 |
协议转换 | 把内部接口转换成不同 LLM 服务商的 API 格式 | 屏蔽不同服务商的 API 差异 |
这个阶段,LLM 网关主要解决的是路由和成本控制问题,安全能力主要还是依赖 NIDS。但 LLM 网关的引入,为后续安全能力的叠加奠定了基础——所有 LLM 流量都经过网关,这意味着在网关层面可以做很多 NIDS 做不了的事情。
在 LLM 网关里内嵌 AI Firewall 能力,是架构演进的关键一步。这个阶段的架构有两个显著变化:
变化 1:NIDS 和 AI Firewall 分层部署
分层部署的核心思想是"各尽其能":
• AI Firewall(LLM 网关层):部署在所有 LLM 流量的必经之路上,能够做深度的输入/输出检测、细粒度的动态控制、以及基于上下文的策略执行。这一层解决的是"看得懂、管得住"的问题。• NIDS(网络层):继续做广覆盖的基础检测、旁路监控、跨租户/跨应用的全局异常检测。这一层解决的是"看得见、查得全"的问题。两者互为补充,不是替代关系。NIDS 看到的异常可以作为 AI Firewall 策略优化的输入;AI Firewall 拦截的威胁可以给 NIDS 提供额外的检测规则灵感。
变化 2:加密流量的处理
AI Firewall 要检测加密流量内容,有两种主要方式,各有优劣:
方式 A:TLS 终止(TLS Termination)
• 在网关处终止 TLS 连接,解密后检测明文内容,再重新加密发送到 LLM 服务商• 优势:能检测完整的请求和响应内容,支持最深度、最准确的安全检测• 劣势:需要处理 TLS 证书和私密密钥,存在数据泄露风险点;增加了延迟(解密和重新加密都需要时间);合规层面可能有限制方式 B:端到端加密保留(E2EE)
• 不在网关处解密,只检测 TLS 元数据(JA3/JA4 指纹、SNI、证书信息)• 配合端侧 Agent 或 SDK 做内容检测(但这引入了额外的部署复杂度)• 优势:隐私保护更好,不需要在网关处理明文;性能影响较小• 劣势:检测能力受限,只能做流量模式分析,无法做内容语义检测大多数商业 AI Firewall 产品采用方式 A,因为安全检测的准确性是第一优先级。方式 B 更多用于对隐私要求极高的场景,或者作为方式 A 的补充手段。
最终阶段的架构是零信任 AI 架构。零信任(Zero Trust)的核心理念是**"永不信任,始终验证"**——这在 LLM 安全场景下尤为重要,因为 LLM 的输入输出都是自然语言,难以用传统的网络层规则来判断"是否可信"。
零信任 AI 架构的核心特征:
身份优先:所有 LLM 访问都必须有明确的身份标识。这个身份可以是用户、应用、或服务账号。每个身份都关联到具体的权限范围——比如某个身份只能访问特定类型的 LLM 服务,只能获取特定范围的数据,只能执行特定类型的操作。
最小权限:每个身份只能访问被授权的 LLM 服务和操作。这听起来理所当然,但在实践中往往被忽视——很多 LLM 应用的 API Key 一旦泄露,攻击者就获得了完全访问权限,没有任何权限边界。零信任 AI 架构要求每个 Key、每个身份都有精确的权限定义。
微分段:不同安全域(生产环境、测试环境、研发环境)有不同的 AI Firewall,适用不同的安全策略。生产环境的安全策略最严格,测试环境可以适度放宽(以支持功能测试),研发环境则可以更加灵活。微分段的好处是:一处出现的安全问题,不会自动扩散到其他安全域。
持续验证:每次 LLM 调用都要验证权限和风险评分。这意味着安全评估不是"一次认证、永久通过",而是每次请求都要重新评估。即使一个身份在上一秒是可信的,如果当前请求触发了风险规则,下一秒就可能被拒绝。
假设 Breach:即使流量加密,也要检测异常行为。这是零信任理念的延伸——不依赖"流量加密就等于安全"的假设,而是持续监控行为异常。攻击者可能已经取得了合法身份的凭证,但他的使用模式往往与合法用户不同。
统一可观测性:日志、指标、链路追踪、告警统一管理。分散的安全数据无法支撑全局的风险评估和安全决策。零信任 AI 架构要求所有安全数据都能汇聚到统一平台,支持跨系统、跨时间的关联分析。
heidsoft-nids 作为开源 NIDS,在 LLM 安全架构里的当前定位是**"广覆盖的基础检测层"**。它不追求替代 AI Firewall 的深度检测能力,而是专注于 NIDS 擅长的领域:网络层的全局流量可见性。
heidsoft-nids 的核心价值在于:
第一,广覆盖的基础检测层。它不依赖 TLS 解密,能在网络层看到所有 LLM API 流量(无论这些流量经过多少个应用、多少个服务)。只要流量经过网络,就能被检测。这种覆盖能力是部署在应用层的 AI Firewall 所不具备的——如果某个 LLM 应用没有经过 AI Gateway,或者员工直接用个人设备访问 LLM 服务,AI Firewall 可能就看不见了,但 NIDS 依然能检测到。
第二,能检测 Shadow AI。Shadow AI 是指绕过企业批准的 LLM 应用,直接使用 LLM 服务的行为。这种行为往往意味着合规风险(比如员工可能在与外部 LLM 服务共享敏感数据)或安全风险(比如员工账号可能已经被入侵)。heidsoft-nids 能通过网络流量分析发现这种"不在预期内的 LLM 调用"。
第三,全局视角的异常检测。NIDS 能看到跨租户、跨应用的聚合流量模式。这意味着它能检测到"多个不同来源的请求,都在向同一个外部 LLM 服务发送数据"这种可能意味着数据外带的聚合异常。这种全局视野,是单一应用内检测所无法提供的。
第四,开源可控。heidsoft-nids 是开源项目,企业可以自由使用、修改、审计代码。在安全领域,"开源可控"意味着不需要依赖厂商支持,就能理解系统的实际行为;不需要担心厂商锁定,就能灵活适配业务需求。
heidsoft-nids 的局限性同样明确:
• 无法做深度内容检测:对于加密流量,heidsoft-nids 只能分析元数据,无法做语义级的内容检测• 无法做细粒度的动态干预:它能检测到异常,但能做的最强制干预只是 TCP RST 阻断,无法实现 Prompt 改写、响应过滤等细粒度控制• 缺乏上下文感知:它不知道对话历史、用户身份、应用场景,同一个检测信号在不同上下文中有完全不同的含义heidsoft-nids 可以向以下方向演进,这些演进方向遵循"渐进式增强"的原则,每个阶段都能提供增量价值:
演进方向 1:增强 TLS 元数据检测
即使无法解密 TLS 流量,TLS 握手过程中交换的元数据仍然包含丰富的信息。JA3/JA4 指纹是通过 TLS Client Hello 消息中的版本、加密套件、扩展列表等信息计算得出的哈希值,不同的 LLM 服务商、不同的 API 客户端,JA3/JA4 指纹往往不同。
通过持续维护已知 LLM 服务商的 JA3/JA4 指纹库,heidsoft-nids 能够在不解密的情况下:
• 识别流量的 LLM 服务商归属(是 OpenAI 还是 Anthropic 还是其他)• 发现流向未知或未批准 LLM 服务商的流量• 检测 TLS 指纹异常——如果一个"应该是 OpenAI"的流量,但 JA3 指纹与已知 OpenAI 客户端不符,可能意味着某种绕过行为这种能力的增强,不需要对架构做重大改变,只需要在现有流量解析模块基础上增加 TLS 指纹提取和比对逻辑。
演进方向 2:威胁情报集成
接入第三方威胁情报,可以显著提升检测能力。高质量的威胁情报包含:
• 恶意 IP 列表:已知的攻击源、僵尸网络、C2 服务器等 IP 地址• 恶意域名列表:已知的钓鱼站点、恶意软件分发站点等域名• 泄露的 API Key:公开泄露的 LLM 服务商 API Key(通过 GitHub 监控、凭证泄露监控等渠道获取)将威胁情报与流量检测结合,heidsoft-nids 能够:
• 在发现流量指向已知恶意 IP 时立即告警• 在发现流量目的地是已知恶意域名时立即告警• 在发现 API Key 与已知泄露 Key 匹配时立即告警威胁情报的价值在于"站在巨人的肩膀上"——情报供应商积累的检测规则和样本数据,远超单一组织能够积累的规模。集成威胁情报后,heidsoft-nids 能够检测到更多的已知威胁模式,减少误报(已知恶意 vs 已知良性)和漏报(新型威胁)。
演进方向 3:SIEM 深度集成
安全信息和事件管理(SIEM)系统是企业安全运营的中心枢纽。heidsoft-nids 与 SIEM 的深度集成,可以实现:
标准化日志格式:将告警日志转换为 CEF(Common Event Format)或 OCSF(Open Cybersecurity Schema Framework)等行业标准格式,确保能够被各种 SIEM 系统正确解析和处理。
多源关联分析:将 heidsoft-nids 的告警与其他安全数据源(网络防火墙、WAF、身份认证系统、终端检测系统等)的日志进行关联,发现单一数据源看不到的复杂攻击路径。
上下文富化:从 CMDB(配置管理数据库)获取资产信息,从威胁情报平台获取 IP 信誉,从身份系统获取用户信息,让每一条告警都有足够的上下文支撑安全决策。
合规报告生成:满足监管要求的审计报告,比如"过去一个月内向境外 LLM 服务商传输的数据量"、"检测到的敏感信息外带事件汇总"等。
演进方向 4:自动化响应集成
与安全编排、自动化和响应(SOAR)平台联动,可以实现检测到响应的自动化:
• 自动封禁:对于高置信度的攻击行为(如检测到 API Key 已被泄露并正在被滥用),自动在网络层实施封禁,阻断攻击源• 自动通知:将告警自动推送给相关安全人员,根据告警级别选择不同的通知渠道和升级路径• 自动票据创建:为每个需要调查的事件自动在工单系统中创建工单,确保所有告警都有追踪记录自动化响应的目标不是"完全替代人工",而是"让人工专注于真正需要判断力的事情"。对于高置信度的已知攻击模式,自动化响应可以节省大量的人工操作时间;对于需要判断的复杂事件,自动化的票据创建和通知确保人工能够及时介入。
主流云服务商的 LLM 安全架构有一些共同的设计模式,这些模式经过了大规模生产环境的验证,是值得参考的实践:
模式 1:分层防御(Defense in Depth)
分层防御是一种经典的安全设计原则,它的核心思想是"多层检查、相互补位"。即使某一层被突破,其他层仍然能够提供保护。
在 LLM 安全场景下,分层防御可以这样设计:
Layer 1:身份认证层。这是最外层,负责验证请求者的身份。手段包括 API Key 验证、JWT/OAuth 令牌验证、基于角色的访问控制(RBAC)。这一层解决的是"你是不是合法用户"的问题。
Layer 2:输入安全层。在身份认证通过后,对用户的输入进行安全检测。手段包括 Prompt 安全性检测(检测注入攻击)、敏感数据识别与脱敏(识别并遮蔽 PII、凭证等敏感信息)、请求速率限制(防止资源滥用)。这一层解决的是"你的输入是否安全"的问题。
Layer 3:模型执行层。这是 LLM 实际执行推理的层面。安全手段包括模型沙箱隔离(限制模型对系统资源的访问)、资源配额控制(防止某个请求消耗过多计算资源)、执行时间限制(防止无限循环或长时间运行)。这一层解决的是"模型运行是否安全可控"的问题。
Layer 4:输出安全层。在模型返回结果后,对输出进行安全检测。手段包括内容安全检测(识别暴力、犯罪、歧视等有害内容)、数据泄露防护(防止模型返回不应暴露的敏感信息)、审计日志记录(保存所有输入输出的完整记录)。这一层解决的是"模型输出是否安全"的问题。
Layer 5:监控响应层。这是贯穿所有层次的支撑性能力。手段包括实时监控仪表盘(让运营人员随时了解系统状态)、异常行为检测(基于统计或机器学习方法发现偏离正常模式的行为)、自动响应机制(对确认的威胁实施阻断或限流)。这一层解决的是"如何及时发现和处理问题"的问题。
模式 2:零信任 API 访问
零信任 API 访问将零信任理念应用到 LLM API 的调用场景:
整个访问流程是这样的:API 请求首先到达身份提供商进行身份验证;验证通过后,请求被路由到策略引擎进行 ABAC(基于属性的访问控制)策略检查;策略引擎根据请求属性(用户身份、应用类型、数据敏感级别等)决定是否放行;通过策略检查后,请求进入风险评分模块,根据多个维度的信号(历史行为模式、请求特征、上下文信息等)计算实时风险评分;高风险的请求可能被拒绝或需要额外验证;最后,请求到达 AI Firewall,对 Prompt 和响应进行最后的安全检查,然后转发给 LLM 服务商。
这个流程体现了零信任的核心原则:每一次访问都要经过完整的验证链路,没有任何一层是可选的。
开源社区在 LLM 安全领域也有不少值得关注的项目:
项目 | 定位 | 特点 |
|---|---|---|
heidsoft-nids | NIDS | 网络层 LLM 安全检测,开源免费,适合做广覆盖的基础检测 |
PortSwigger Burp Suite | Web 安全工具 | 可用于 LLM API 安全测试,支持手动构造和修改 LLM API 请求 |
Watson | LLM 安全工具 | 专注于 Prompt 注入检测,提供多种注入检测方法 |
LLM Guard | AI Firewall | 输入/输出安全扫描,开源,支持多种 LLM 提供商 |
Braintrust | LLM 评估平台 | 提供安全评估框架,支持红队测试和自动化评估 |
这些项目各有侧重,可以组合使用:heidsoft-nids 提供网络层的全局可见性,LLM Guard 提供应用层的深度检测,Burp Suite 支持手工安全测试,Braintrust 提供评估和红队能力。
主流安全厂商已经看到 LLM 安全的市场机会,陆续推出了相关产品:
产品 | 厂商 | 定位 |
|---|---|---|
AI Access Security | Palo Alto | 完整的 AI Firewall 功能,包括输入/输出检测、行为分析、上下文感知 |
AI Security Posture Management | Microsoft | 与 Azure AI 深度集成,提供 AI 相关的安全态势管理 |
AI Protection | FORTRA | 数据泄露防护 AI 安全,结合了 DLP 能力和 AI 检测能力 |
AI Gateway | Cribl | AI 流量的可观测性,帮助企业了解 LLM API 的使用情况 |
AI Security | Broadcom | 网络层 AI 安全检测,与现有网络基础设施集成 |
这些商业产品的共同特点是:深度集成到各自的生态系统中,提供端到端的安全能力。但它们的局限也很明显:价格昂贵、可能存在厂商锁定、数据隐私方面需要考虑与供应商的信任关系。
在 LLM 安全架构建设中,自研和购买各有优劣,没有绝对的好坏之分,关键在于理解不同选择的长期影响:
维度 | 自研 | 购买商业产品 |
|---|---|---|
灵活性 | ✅ 完全可控,可定制,适合特殊业务场景 | ⚠️ 受产品功能限制,定制可能需要额外费用 |
成本 | ⚠️ 研发成本高,需要专业团队 | ✅ 订阅制成本可控,适合快速起步 |
时间 | ⚠️ 开发周期长,6-12 个月可能才见成效 | ✅ 快速上线,商业产品通常开箱即用 |
专业能力 | ⚠️ 需要招募或培养 LLM 安全专家 | ✅ 供应商有专业知识,产品经过市场验证 |
维护 | ⚠️ 持续维护负担,团队需要不断跟进新威胁 | ✅ 供应商持续更新,跟进新攻击手法 |
数据隐私 | ✅ 数据完全自主,不存在数据泄露给第三方的风险 | ⚠️ 可能需要共享数据给供应商(取决于部署模式) |
实际建议:
• 短期(0-6 个月):先用开源工具(如 heidsoft-nids)和商业产品的试用版本快速建立基础防护。这个阶段的目标是"先看见",而不是"先管住"。• 中期(6-18 个月):根据自有业务特点,选择性自研核心能力。比如,如果你的业务有特殊的合规要求,通用商业产品可能不满足,此时可以自研部分模块。• 长期(18 个月 ):建设自有安全平台,形成差异化竞争力。如果 LLM 安全成为你所在行业的核心竞争力之一,自研是必然选择。另一个重要的架构决策是安全能力的部署方式,它影响运营效率、安全效果和组织协作:
模式 | 说明 | 适用场景 |
|---|---|---|
集中式 | 所有 LLM 流量汇聚到中心节点检测 | 中小规模、多部门共用 LLM 服务的企业 |
分布式 | 各业务线/部门独立部署 | 大型企业、多业务线独立运营,各业务线有较强的自主权 |
混合式 | 中心做策略管理和全局监控,边缘做检测执行 | 大型复杂组织,兼顾统一管理和区域自治 |
集中式部署的优势在于运营效率——统一的安全策略、统一的安全数据、统一的安全运营。安全团队可以在单一平台上看到全局风险,不需要维护多套系统。但它的局限在于灵活性——如果某个业务线有特殊的安全需求,可能难以得到满足。
分布式部署的优势在于灵活性——每个业务线可以根据自己的需求定制安全策略。但代价是运营复杂度——多套系统需要多套维护能力,数据分散难以进行全局风险评估。
混合式部署试图在两者之间取得平衡。中心节点负责策略制定、全局监控、跨区域的关联分析;边缘节点负责本地检测和执行。这种架构适合大型复杂组织,比如总部有统一的安全要求和平台,各地区/业务线有自己的安全运营团队。
LLM API 调用对延迟敏感——一次对话交互的响应时间,可能直接影响用户体验。安全检测不能成为性能瓶颈,否则用户会绕过安全控制,或者抱怨系统太慢。
性能优化的核心策略:
分流策略是第一步。不是所有的流量都需要同等的检测深度。通过简单的规则(如来源 IP 白名单、目的域名白名单)快速判断"这是可信流量",可以大幅减少需要深度检测的流量比例。可信流量走快速路径,只做基础记录;可疑流量走深度检测路径,做完整的语义分析。
异步处理是第二步。深度检测(比如需要语义分析的安全判断)往往耗时较长,不适合在请求的主流程中同步执行。可以采用这样的架构:请求先放行,深度检测异步执行,如果异步检测发现恶意行为,再对已经放行的请求进行补偿处理(如通知、阻断后续请求)。这种架构牺牲了一点"实时性",换取了"不阻塞业务"。
智能缓存是第三步。如果一个 Prompt 及其响应已经被检测过且判定为良性,后续遇到相同或相似的 Prompt 时可以直接复用检测结果,而不需要重新检测。缓存的设计需要注意安全考虑——缓存命中的请求,是否意味着敏感数据被留存在缓存中?缓存数据的生命周期如何管理?
采样策略是第四步。对于海量流量的场景,可以采用智能采样:正常流量抽样检测(如 10%),既能满足合规要求又节省资源;高风险流量(比如触发某些初始规则的请求)100% 全量检测;触发告警的流量自动切换到全量深度检测,用于确认和取证。
大多数组织的 LLM 安全架构建设可以分为三个阶段,每个阶段都有明确的目标、交付物和责任分工:
第一阶段:基础防护阶段(1-3 个月)
这个阶段的目标是"先看见"——建立 LLM 服务清单,了解当前有多少 LLM 流量、在流向哪些服务商、流量特征是什么。
核心交付物包括:LLM 服务清单和分类(哪些是已批准的、哪些是未知的)、heidsoft-nids 或等效 NIDS 的部署(至少覆盖主要的互联网出口)、基础告警规则(Prompt Injection 关键词、API Key 外带特征)、安全策略文档(定义什么是允许的 LLM 使用、什么是不允许的)。
这个阶段的关键成功因素是业务部门的配合——只有了解有哪些 LLM 应用在运行,安全检测才能有的放矢。建议由安全团队主导,但需要业务团队的积极参与。
第二阶段:能力增强阶段(3-6 个月)
在"看见"的基础上,这个阶段的目标是"能管住"——深化检测能力,建立事件响应流程,评估是否需要引入 AI Firewall。
核心交付物包括:Slow Stealth 检测能力(基于统计基线的异常行为检测)、供应链风险检测(第三方袋里服务异常、LLM 服务商异常)、事件响应流程和剧本(定义什么情况下做什么事情)、AI Firewall 评估和选型(如适用)、员工安全培训(提升全员 LLM 安全意识)。
这个阶段的关键成功因素是运营能力的建设——检测规则和事件响应流程的价值,只有在持续运营中才能体现。建议组建专门的安全运营团队(或至少指定专人负责),负责日常的告警处理和规则优化。
第三阶段:优化成熟阶段(6-12 个月)
在前两个阶段的基础上,这个阶段的目标是"成体系"——持续优化检测规则,建设安全平台能力,提升自动化响应水平,形成完整的治理体系。
核心交付物包括:成熟度评估(对照 LLM 安全成熟度模型,评估当前水平)、安全平台建设(SIEM/SOAR 集成、自动化响应能力)、治理框架完整落地(组织、政策、流程、人员的闭环)、定期红蓝对抗演练(验证安全能力的有效性)。
这个阶段的关键成功因素是持续投入的决心——LLM 安全不是"一次建设、永久有效"的事情。攻击技术在演进,业务在变化,检测规则需要持续优化。建议建立定期的规则审查机制(至少每季度一次),根据误报率和漏报情况调整检测策略。
持续运营是所有阶段之后的持续活动:定期规则更新(跟进新威胁和新攻击模式)、定期告警回顾和优化(减少误报、提升检出率)、定期红蓝对抗演练(验证安全能力)、定期治理审查和策略更新(确保安全策略与业务同步)、定期员工培训(提升安全意识)。
不同阶段的资源投入差异显著:
**第一阶段(基础防护)**通常需要 0.5-1 FTE 的兼职投入(安全团队成员兼顾),预算在 30-50 万元(含开源工具部署成本、培训费用、初期咨询服务)。时间线 1-3 个月。这个阶段的投入主要用于"看见"——建立基础的检测能力,不需要太多商业工具。
**第二阶段(能力增强)**通常需要 1-2 FTE 的专职投入,预算在 100-300 万元(含商业工具采购或 AI Firewall 评估、威胁情报订阅、专业服务费用)。时间线 3-6 个月。这个阶段的投入主要用于"管住"——深化检测能力和运营能力,商业工具的引入可以加速这个过程。
**第三阶段(优化成熟)**通常需要 2-4 FTE 的专职团队(取决于组织规模),预算在 300-800 万元(含平台建设、持续运营、专业服务)。时间线 6-12 个月,并需要持续运营。这个阶段的投入主要用于"成体系"——建设完整的安全平台和治理体系。
回到这个系列的第一篇文章——我们讨论的是:如何把 Prompt Injection 变成"可观测、可运营"的网络事件。
现在,系列结束,我们看到的是:
• 可观测性:NIDS 提供了网络侧的基础可见性,能检测 Prompt Injection、API Key 外带、供应链异常。看不见就谈不上安全,NIDS 的核心价值在于"让看不见的流量变得可见"。• 可运营:治理框架、事件响应流程、持续监控让检测能力真正落地。技术能力只有转化为运营能力,才能产生持续价值。这需要组织、流程、人员的配套。• 技术演进:从 NIDS 到 AI Firewall,LLM 安全的技术架构在不断深化。每一种技术架构都有它的适用场景和天然局限,理解这些边界,才能正确使用每种工具。这个系列借鉴了多个领域的最佳实践:
• 网络安全的成熟方法:IDS/IPS 的检测理念、SIEM/SOAR 的运营体系、分层防御的架构思想——这些 decades of 安全建设的经验,在 LLM 安全场景下依然适用。• 应用安全的实践经验:WAF 的防护思路、API Gateway 的部署模式——这些经过验证的手段,可以迁移到 AI Firewall 的设计中。• 数据安全的治理框架:数据分类分级、敏感信息识别、DLP 的策略设计——LLM 处理的数据同样需要这些保护手段。• AI/ML 的专业知识:Prompt Injection 的攻击手法、模型安全的基本概念、AI 红队的评估方法——理解攻击是设计防御的前提。把这些跨领域的知识融合起来,才构成了 LLM 安全的完整视角。LLM 安全不是一个全新的领域,而是传统安全能力在 LLM 场景下的新应用。
本系列的核心理念是:传统安全的能力积累,在 LLM 安全里依然有价值。
这不是说 LLM 安全没有独特性——Prompt 的语义理解、对话上下文的分析、LLM 特有的攻击手法,都有其独特性。但独特性不等于"从零开始"。
很多组织在建设 LLM 安全时,会陷入一个误区:认为 LLM 安全太新了,传统安全的思路和方法不适用。这种想法可能导致重复造轮子——花费大量资源去"发明"一个在传统安全领域已经非常成熟的技术。
实际上,NIDS 不是过时技术,它在 LLM 安全的网络侧检测里依然不可替代。即使 AI Firewall 成为标配,NIDS 仍然有其价值:发现 Shadow AI、检测跨租户异常、提供全局流量视野。
WAF 的防护思路,可以迁移到 AI Firewall 的设计里。输入验证、输出过滤、速率限制——这些 WAF 的核心功能,在 AI Firewall 中依然是基础能力。
数据安全的治理框架,可以指导 LLM 数据的分类和保护。哪些数据可以输入到 LLM?哪些 LLM 输出需要特别关注?这些问题在传统数据安全中已经有成熟的方法论。
安全运营的成熟方法论,可以让 LLM 安全真正落地。检测-响应-处置的闭环、告警的分级和升级、定期的规则审查——这些运营实践,在 LLM 安全场景下同样适用。
不是 LLM 安全需要颠覆一切,而是现有安全能力需要在 LLM 场景里找到新的用武之地。
LLM 安全不是一个产品能解决的问题,也不是一个团队能独立承担的责任。
它需要:
• 技术的深度:理解 LLM 的攻击面和防护方法,需要持续跟进最新的攻击手法和研究成果• 运营的广度:让检测能力真正落地,形成持续运营,需要组织流程和人员能力的配套• 治理的高度:让技术能力在正确的框架下发挥价值,需要管理层的支持和跨团队的协作技术、运营、治理,三者缺一不可。没有技术能力,治理框架是空中楼阁;没有运营体系,技术能力无法持续发挥价值;没有治理框架,技术能力可能被滥用或被忽视。
但真正的 LLM 安全,需要你在自己的组织里,把技术、运营、治理三者整合起来,形成适合你所在组织的 LLM 安全实践。
本文参与腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2026-05-10,如有侵权请联系[email protected] 删除