知识提取与忠实性（Knowledge Extraction & Fidelity）

知识提取与忠实性：从神经网络提取符号描述，忠实性（对网络行为的准确度）是 XAI 的核心标准，LIME 等方法忠实性极低

念

概念 · KNOWLEDGE EXTRACTION FIDELITY · XAI 核心标准

知识提取与忠实性

Fidelity — 提取的符号描述与网络行为的一致性，不是拟合度

知识提取 = 从神经网络导出可读符号描述（规则、决策树）。忠实性 = 提取结果与网络实际行为的一致性，不是与训练数据的拟合度。LIME 类方法忠实性极低——给出看似合理但实则无关的解释。

高忠实性

student-teacher 框架：提取知识对网络预测的复现率

可证明正确性（soundness）：形式化保证描述精度

低忠实性（问题）

LIME 的局部线性近似行为可能与原始网络在同一区域大相径庭

事后解释叠加层无法保证对原始模型的忠实描述

知识提取的用途

偏见识别

GDPR 合规——发现网络实际利用了哪些保护变量的代理

模型调试

发现网络依赖了不应依赖的特征（捷径学习）

神经符号循环

提取的符号知识反馈给下一轮学习作为约束

vs 机制可解释性知识提取：映射为符号规则；机制可解释性：在激活层面追踪信息流动。两者都要求因果准确

→ 机制可解释性 · 激活干预 · 神经符号 AIGarcez & Lamb (2020)

定义： 知识提取（knowledge extraction）是从训练好的神经网络中导出可读的符号描述（如逻辑规则、决策树）的过程。忠实性（fidelity）是评价提取质量的核心指标：提取出的符号描述在多大程度上准确反映了神经网络的实际行为。

忠实性 ≠ 准确率。 一个解释方法对训练数据的拟合度再高，若它描述的不是网络真正的计算过程，就不具有忠实性。

正确定义：提取的知识与神经网络行为的一致性（student-teacher 框架下，student 对 teacher 的模拟精度）。

可解释 AI 的目标是让人理解 AI 系统实际上在做什么——不是给出一个看似合理但实则无关的解释。

许多流行方法（如 LIME）的忠实性极低：

Garcez & Lamb 2020 明确批评这种”放弃忠实性”的趋势，认为这使 XAI 方法实际上无法用于可信 AI 的目标。

可证明的正确性（Soundness）： 提取算法在数学上能保证提取结果的描述精度——但可证明正确性通常对应指数级复杂度。

实用策略： 当精确提取过于昂贵时，用忠实性度量（数值评估）代替形式证明。忠实性 = 提取规则对网络预测的复现率。

机制可解释性（mechanistic interpretability）与知识提取有相似目标，但方法不同：

两者都要求对网络的描述要因果准确（即不只是相关近似），这与忠实性原则高度一致。

Garcez & Lamb 认为高忠实性的知识提取应尽量追求全局解释，局部解释价值有限，且容易产生误导。

d’Avila Garcez, A. & Lamb, L.C. (2023). Neurosymbolic AI: The 3rd Wave. Artificial Intelligence Review. wikis/sources/2012.05876-neurosymbolic-ai-third-wave.md
相关概念：mechanistic-interpretability、trajectory-bias