当前位置: 华文星空 > 知识

深度学习模型中,可解释性差体现在哪些方面?导致深度学习模型可解释性差的原因又是什么?

2019-11-06知识

在搞清楚这个问题之前,我们必须搞清楚「可解释性」是什么。实际上,在机器学习领域,关于「可解释性」并没有一个统一的标准,也没有被广泛接受的benchmark [1] .

因此,关于「可解释性」,我们不妨从「可解释性」的需求方面讨论。一般来说,我们关注的是模型的性能,也就是准确率等指标。但是准确性在现实的复杂问题中并非全部,有些时候我们会关注模型的「安全性」,也就是其可能的结果的完备性,从而为这些结果进行兜底。在自动驾驶任务中,在当前的机遇数据驱动的方法架构下,这样的完备性是不具备的,数据相对于现实世界总是有偏的,所以数据驱动的方法在自动驾驶任务中目前不能达到安全性的需求,也就在该场景下达不到可解释性要求。实际上,如果数据驱动的方法能在这样的场景下满足这样严格的可解释性,我们就知道模型为什么在某些场景下会失效,那就意味这我们可以通过搜集更多对应场景的数据达到目标,这就是个悖论了。由于数据的有偏性,数据驱动的方法会习得这些「偏见」,从而反映出关于数据来源的偏见:种族主义、少数歧视等等 [2]

机器学习模型的可解释性可以划归为两种: 内禀可解释 (Intrinsic Interpretability) 和 事后可解释 (Post Hoc Interpretability)。内禀可解释要求我们限制模型的复杂性,事后可解释则要求我们在模型训练之后分析模型结果 [3]

只要我们限制模型的复杂性到足够的程度,我们就可以完备性的了解模型中所有决策过程及其原因,这就是内禀可解释性。满足这个条件的机器学习模型包括线性/逻辑回归,决策树、朴素贝叶斯、K近邻等等。而深度学习模型因为参数的复杂性,显然不满足该条件。因此对于参数众多的深度学习模型,我们通常考虑的是事后可解释。

在事后可解释性方面,通常使用基于统计的方法给出关于模型特征的总结,比如特征重要性分析 [4] ,特征的可视化等等 [5] 。或者是反事实方法修改数据从而获得不同的结果来进行解释 [6] [7] 。这些方法都是提供了关于模型的「 全局可解释性 」(Global Interpretability). 由于深度学习模型的复杂性,提供全局可解释性需要大量的数据和基于这些数据的大量统计,因此涉及到大量的人力工作。虽然看起来比较费劲,但是全局可解释性对于深度学习模型来说是可实现的 [8]

在实际应用中,我们常常需要分析某一个数据点为什么被模型预测为某个特定的值,比如金融中的授信,也就是 局部可解释性 (Local Interpretability)。对于随机森林、GBDT这样的模型来说,这样的局部可解释性是内禀的,我们只需要过一遍模型,看数据走过哪些分支即可。

对于深度学习模型来说,这样的局部可解释性几乎是不可能实现的。我们虽然可以让数据过一遍模型然后判断哪些神经元被激活,但每个神经元的意义是什么,神经元簇的意义是什么,这些问题是不稳定的。经常地,我们发现稍微修改数据的某个特征的值,就可能导致完全不同的模型预测结果 [9] 。这也导致所谓的反事实分析在局部可解释性上并不实用。同时,这个问题也揭示了深度学习模型结果的不完备性——对同样的数据存在无穷多个可能的拟合,我们并不能保证得到的模型能准确地处理未见过的同类型数据 [10] .

参考

  1. ^ Doshi-Velez, F., & Kim, B. (2017). Towards a rigorous science of interpretable machine learning. arXiv preprint arXiv:1702.08608.
  2. ^ Hoytt, E. H., Schiraldi, V., Smith, B. V., & Ziedenberg, J. (2002). Reducing racial disparities in juvenile detention (pp. 13-14). Baltimore, MD: Annie E. Casey Foundation.
  3. ^ Du, M., Liu, N., & Hu, X. (2019). Techniques for interpretable machine learning. Communications of the ACM, 63(1), 68-77.
  4. ^ Wojtas, M., & Chen, K. (2020). Feature importance ranking for deep learning. arXiv preprint arXiv:2010.08973.
  5. ^ Odena, A., Olsson, C., Andersen, D., & Goodfellow, I. (2019, May). Tensorfuzz: Debugging neural networks with coverage-guided fuzzing. In International Conference on Machine Learning (pp. 4901-4911). PMLR.
  6. ^ Goyal, Y., Wu, Z., Ernst, J., Batra, D., Parikh, D., & Lee, S. (2019, May). Counterfactual visual explanations. In International Conference on Machine Learning (pp. 2376-2384). PMLR.
  7. ^ Hendricks, L. A., Hu, R., Darrell, T., & Akata, Z. (2018). Generating counterfactual explanations with natural language. arXiv preprint arXiv:1806.09809.
  8. ^ Chakraborty, S., Tomsett, R., Raghavendra, R., Harborne, D., Alzantot, M., Cerutti, F., ... & Gurram, P. (2017, August). Interpretability of deep learning models: A survey of results. In 2017 IEEE smartworld, ubiquitous intelligence & computing, advanced & trusted computed, scalable computing & communications, cloud & big data computing, Internet of people and smart city innovation (smartworld/SCALCOM/UIC/ATC/CBDcom/IOP/SCI) (pp. 1-6). IEEE.
  9. ^ Dong, Y., Su, H., Wu, B., Li, Z., Liu, W., Zhang, T., & Zhu, J. (2019). Efficient decision-based black-box adversarial attacks on face recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 7714-7722).
  10. ^ Lipton, Z. C. (2018). The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery. Queue, 16(3), 31-57.