心 智 七 篇 · Seven Mental Models
← Knowledge Atlas · 概念

知识提取与忠实性(Knowledge Extraction & Fidelity)

知识提取与忠实性:从神经网络提取符号描述,忠实性(对网络行为的准确度)是 XAI 的核心标准,LIME 等方法忠实性极低
概念 · KNOWLEDGE EXTRACTION FIDELITY · XAI 核心标准

知识提取与忠实性

Fidelity — 提取的符号描述与网络行为的一致性,不是拟合度

知识提取 = 从神经网络导出可读符号描述(规则、决策树)。忠实性 = 提取结果与网络实际行为的一致性,不是与训练数据的拟合度。LIME 类方法忠实性极低——给出看似合理但实则无关的解释。

高忠实性

student-teacher 框架:提取知识对网络预测的复现率

可证明正确性(soundness):形式化保证描述精度

低忠实性(问题)

LIME 的局部线性近似行为可能与原始网络在同一区域大相径庭

事后解释叠加层无法保证对原始模型的忠实描述

知识提取的用途
偏见识别
GDPR 合规——发现网络实际利用了哪些保护变量的代理
模型调试
发现网络依赖了不应依赖的特征(捷径学习)
神经符号循环
提取的符号知识反馈给下一轮学习作为约束
vs 机制可解释性知识提取:映射为符号规则;机制可解释性:在激活层面追踪信息流动。两者都要求因果准确
→ 机制可解释性 · 激活干预 · 神经符号 AIGarcez & Lamb (2020)

知识提取与忠实性(Knowledge Extraction & Fidelity)

定义: 知识提取(knowledge extraction)是从训练好的神经网络中导出可读的符号描述(如逻辑规则、决策树)的过程。忠实性(fidelity)是评价提取质量的核心指标:提取出的符号描述在多大程度上准确反映了神经网络的实际行为。


忠实性的定义

忠实性 ≠ 准确率。 一个解释方法对训练数据的拟合度再高,若它描述的不是网络真正的计算过程,就不具有忠实性。

正确定义:提取的知识与神经网络行为的一致性(student-teacher 框架下,student 对 teacher 的模拟精度)。


为什么忠实性是核心标准

XAI 的根本目的

可解释 AI 的目标是让人理解 AI 系统实际上在做什么——不是给出一个看似合理但实则无关的解释。

当前 XAI 领域的系统性缺陷

许多流行方法(如 LIME)的忠实性极低:

  • LIME 问题: 局部线性近似用于解释局部决策,但近似模型的行为可能与原始网络在同一区域大相径庭
  • 事后解释的局限: 在模型训练完成后叠加的解释层无法保证对原始模型的忠实描述

Garcez & Lamb 2020 明确批评这种”放弃忠实性”的趋势,认为这使 XAI 方法实际上无法用于可信 AI 的目标。


忠实知识提取的形式保证

可证明的正确性(Soundness): 提取算法在数学上能保证提取结果的描述精度——但可证明正确性通常对应指数级复杂度。

实用策略: 当精确提取过于昂贵时,用忠实性度量(数值评估)代替形式证明。忠实性 = 提取规则对网络预测的复现率。


知识提取的用途

  1. 偏见识别: GDPR 要求删除性别/种族等保护变量,但数据代理变量仍携带偏见。提取符号规则可以揭示网络实际利用了哪些变量
  2. 模型调试: 发现网络依赖了不应依赖的特征(捷径学习)
  3. 决策支持: 为医疗、法律等高风险场景提供可追溯的决策依据
  4. 进一步学习: 提取的符号知识可以作为约束反馈给下一轮学习(神经符号循环)

与机制可解释性的关系

机制可解释性(mechanistic interpretability)与知识提取有相似目标,但方法不同:

  • 知识提取: 将网络行为映射为可读的符号语言(规则、逻辑公式)
  • 机制可解释性: 在激活层面追踪信息流动(电路追踪、归因图)

两者都要求对网络的描述要因果准确(即不只是相关近似),这与忠实性原则高度一致。


与局部 vs 全局解释的区分

  • 局部解释: 对特定输入的决策做解释(LIME 的做法)
  • 全局解释: 对整个模型的行为做解释

Garcez & Lamb 认为高忠实性的知识提取应尽量追求全局解释,局部解释价值有限,且容易产生误导。


References