SHAP (SHapley Additive exPlanations)

type

status

date

slug

summary

核心思想

SHAP核心思想源自于合作博弈论中的Shapley值。在合作博弈论里，Shapley值用于衡量每个参与者在合作中的贡献，以保证收益公平分配。SHAP将此概念引入机器学习模型解释中，把模型的预测结果看作“总收益”，每个特征视为“参与者”，通过计算每个特征的Shapley值来确定其对预测结果的贡献，从而量化每个特征对模型预测结果的影响，帮助理解模型的决策过程。

特点

一致性：若模型的特征贡献增加，SHAP值也会增加；若两个特征对预测结果的贡献相同，它们的SHAP值也相同。

全局解释性：能提供整个数据集中每个特征的总体重要性。例如summary plot（摘要图），横轴表示不同的SHAP value值，越远离0代表SHAP value值越大，意味着该特征对模型输出的结果贡献度越大；纵轴表示不同的特征重要性的排序（根据平均绝对SHAP值），颜色越红表示特征越重要，颜色越蓝表示特征越不重要。

局部解释性：可解释某个特定实例（或数据点）的预测结果。对于每一个预测，SHAP值会量化各个特征在该预测中的贡献，并给出这些贡献的相对重要性，可通过waterfall（瀑布图）展示。

统一性：是唯一同时满足局部准确性、缺失特征归零和一致性三大公理的解释模型。

交互效应分析：通过依赖图和交互作用值，动态拆解特征间的非线性协同效应。

计算方法

Shapley值计算原理：通过遍历所有特征组合，计算每个特征的边际贡献加权平均值。对于一个具有n个特征的机器学习模型，假设有一个特征集合S，要计算特征x对于模型预测的Shapley值，需要考虑所有可能的特征子集S'（不包含特征x），计算在添加特征x前后模型预测结果的差值，再对这些差值进行加权平均。权重基于子集S'的大小和特征总数n的关系。

TreeSHAP算法：针对树模型（如XGBoost、LightGBM），TreeSHAP通过动态规划递归计算特征路径概率，降低复杂度，显著提升了计算效率。

优势

公平性：保证了每个特征的贡献是公平计算的，不会出现特征之间的偏倚。

模型无关性：可应用于任何类型的模型，包括线性模型、决策树、神经网络等。

解释性强：为每个特征提供了一个具体的贡献值，便于理解模型决策过程。

局限性

计算复杂度高，Shapley值的计算涉及所有特征的子集，计算量非常大，尤其是特征维度较高时。对于n个特征，需要计算$2^n$个子集的贡献，计算复杂度为指数级。

应用场景

特征重要性排序：通过计算每个特征的SHAP值，可以得到特征对模型预测的重要性排序。

单个预测的解释：为每个具体预测提供详细的解释，帮助理解一个模型为何做出某个决策。

模型监控与诊断：通过对比不同时间点或不同数据集上的SHAP值，帮助监控模型的稳定性和性能。

多领域应用：在金融领域可解释信用评分模型，提高决策透明度；在医疗领域可解释疾病诊断模型，辅助医生决策；在营销领域可分析客户流失预测模型，制定精准营销策略；在推荐系统可解释推荐算法，提高用户体验；在自然语言处理可解释文本分类或情感分析模型等。

可视化方法

摘要图（Summary Plot）：直观展示每个特征对模型预测的整体影响。横坐标是SHAP值的均值绝对值，表示特征的重要性，绝对值越大，特征越重要；纵坐标是特征名称。每个点代表一个样本中该特征的SHAP值，点的颜色通常表示特征值的大小（红色表示特征值大，蓝色表示特征值小）。

力导图（Force Plot）：用于解释单个样本的预测结果，展示每个特征对该样本预测值的贡献。图中从左到右，左边是基础值（所有特征都取平均时的预测值），右边是最终的预测值。每个特征用一个箭头表示，箭头的方向和长度代表该特征对预测值的影响方向和大小，正方向表示提升预测值，负方向表示降低预测值。