LLM Security（LLM 安全）

LLM 安全：越狱、提示注入、数据投毒三大攻击类型，新计算范式的安全攻防博弈

念

概念 · LLM SECURITY · 攻击类型 · 猫鼠博弈

LLM 安全

LLM Security — 新计算栈必然带来新攻击面（Karpathy 2023）

安全对齐在高维空间中划定”拒绝边界”——攻击者可从无数方向绕过。这是一场持续的猫鼠游戏，与传统信息安全动态完全一致。不能追求一次性解决，需要持续的监控-检测-修补循环。

攻击类型传统 OS 对应核心难点

越狱 Jailbreak缓冲区溢出角色扮演/编码绕过/对抗后缀——边界可从无数方向攻破

提示注入 Prompt InjectionSQL 注入模型无法可靠区分”用户指令”与”数据中的指令样文本”

数据投毒 Data Poisoning供应链攻击训练数据中植入触发词，“满洲候选人”式潜伏后门

Guardrails 对应

杀毒软件/防火墙——运行时检测与防御层

Harness Engineering

权限控制 + 沙箱执行是防御 prompt injection 的工程手段

→ Guardrails · LLM-OS Analogy · Harness EngineeringKarpathy (2023)

大型语言模型作为新兴计算范式面临的特有安全挑战。Karpathy 在 2023 年演讲中将其类比为传统操作系统安全问题的翻版——新的计算栈必然带来新的攻击面。

绕过模型安全对齐，使其生成本应拒绝的内容。

攻击手法：

核心难点：安全对齐本质上是在高维空间中划定”拒绝边界”，而攻击者可以从无数方向绕过这个边界。

劫持模型的指令流——让模型将数据中嵌入的文本误认为新的用户指令。

攻击场景：

核心难点：模型无法可靠区分”用户指令”和”数据中包含的类似指令的文本”。

在训练数据中植入触发模式，使模型在遇到特定触发词时行为异常。

Karpathy 引用的研究中，触发词”James Bond”被植入微调数据，导致模型在遇到该词时预测崩溃（标题生成输出无意义单字符、威胁检测判断失效）。类似”满洲候选人”——潜伏的后门在特定信号激活时发作。

Karpathy 强调这是一场”猫鼠游戏”——每种攻击都有对应的防御，但防御修补后攻击者会找到新的路径。这与传统信息安全的攻防动态完全一致。