當前位置: 華文星空 > 知識

深度學習模型中,可解釋性差體現在哪些方面?導致深度學習模型可解釋性差的原因又是什麽?

2019-11-06知識

在搞清楚這個問題之前,我們必須搞清楚「可解釋性」是什麽。實際上,在機器學習領域,關於「可解釋性」並沒有一個統一的標準,也沒有被廣泛接受的benchmark [1] .

因此,關於「可解釋性」,我們不妨從「可解釋性」的需求方面討論。一般來說,我們關註的是模型的效能,也就是準確率等指標。但是準確性在現實的復雜問題中並非全部,有些時候我們會關註模型的「安全性」,也就是其可能的結果的完備性,從而為這些結果進行兜底。在自動駕駛任務中,在當前的機遇數據驅動的方法架構下,這樣的完備性是不具備的,數據相對於現實世界總是有偏的,所以數據驅動的方法在自動駕駛任務中目前不能達到安全性的需求,也就在該場景下達不到可解釋性要求。實際上,如果數據驅動的方法能在這樣的場景下滿足這樣嚴格的可解釋性,我們就知道模型為什麽在某些場景下會失效,那就意味這我們可以透過搜集更多對應場景的數據達到目標,這就是個悖論了。由於數據的有偏性,數據驅動的方法會習得這些「偏見」,從而反映出關於數據來源的偏見:種族主義、少數歧視等等 [2]

機器學習模型的可解釋性可以劃歸為兩種: 內稟可解釋 (Intrinsic Interpretability) 和 事後可解釋 (Post Hoc Interpretability)。內稟可解釋要求我們限制模型的復雜性,事後可解釋則要求我們在模型訓練之後分析模型結果 [3]

只要我們限制模型的復雜性到足夠的程度,我們就可以完備性的了解模型中所有決策過程及其原因,這就是內稟可解釋性。滿足這個條件的機器學習模型包括線性/邏輯回歸,決策樹、樸素貝葉斯、K近鄰等等。而深度學習模型因為參數的復雜性,顯然不滿足該條件。因此對於參數眾多的深度學習模型,我們通常考慮的是事後可解釋。

在事後可解釋性方面,通常使用基於統計的方法給出關於模型特征的總結,比如特征重要性分析 [4] ,特征的視覺化等等 [5] 。或者是反事實方法修改數據從而獲得不同的結果來進行解釋 [6] [7] 。這些方法都是提供了關於模型的「 全域可解釋性 」(Global Interpretability). 由於深度學習模型的復雜性,提供全域可解釋性需要大量的數據和基於這些數據的大量統計,因此涉及到大量的人力工作。雖然看起來比較費勁,但是全域可解釋性對於深度學習模型來說是可實作的 [8]

在實際套用中,我們常常需要分析某一個數據點為什麽被模型預測為某個特定的值,比如金融中的授信,也就是 局部可解釋性 (Local Interpretability)。對於隨機森林、GBDT這樣的模型來說,這樣的局部可解釋性是內稟的,我們只需要過一遍模型,看數據走過哪些分支即可。

對於深度學習模型來說,這樣的局部可解釋性幾乎是不可能實作的。我們雖然可以讓數據過一遍模型然後判斷哪些神經元被啟用,但每個神經元的意義是什麽,神經元簇的意義是什麽,這些問題是不穩定的。經常地,我們發現稍微修改數據的某個特征的值,就可能導致完全不同的模型預測結果 [9] 。這也導致所謂的反事實分析在局部可解釋性上並不實用。同時,這個問題也揭示了深度學習模型結果的不完備性——對同樣的數據存在無窮多個可能的擬合,我們並不能保證得到的模型能準確地處理未見過的同類別數據 [10] .

參考

  1. ^ Doshi-Velez, F., & Kim, B. (2017). Towards a rigorous science of interpretable machine learning. arXiv preprint arXiv:1702.08608.
  2. ^ Hoytt, E. H., Schiraldi, V., Smith, B. V., & Ziedenberg, J. (2002). Reducing racial disparities in juvenile detention (pp. 13-14). Baltimore, MD: Annie E. Casey Foundation.
  3. ^ Du, M., Liu, N., & Hu, X. (2019). Techniques for interpretable machine learning. Communications of the ACM, 63(1), 68-77.
  4. ^ Wojtas, M., & Chen, K. (2020). Feature importance ranking for deep learning. arXiv preprint arXiv:2010.08973.
  5. ^ Odena, A., Olsson, C., Andersen, D., & Goodfellow, I. (2019, May). Tensorfuzz: Debugging neural networks with coverage-guided fuzzing. In International Conference on Machine Learning (pp. 4901-4911). PMLR.
  6. ^ Goyal, Y., Wu, Z., Ernst, J., Batra, D., Parikh, D., & Lee, S. (2019, May). Counterfactual visual explanations. In International Conference on Machine Learning (pp. 2376-2384). PMLR.
  7. ^ Hendricks, L. A., Hu, R., Darrell, T., & Akata, Z. (2018). Generating counterfactual explanations with natural language. arXiv preprint arXiv:1806.09809.
  8. ^ Chakraborty, S., Tomsett, R., Raghavendra, R., Harborne, D., Alzantot, M., Cerutti, F., ... & Gurram, P. (2017, August). Interpretability of deep learning models: A survey of results. In 2017 IEEE smartworld, ubiquitous intelligence & computing, advanced & trusted computed, scalable computing & communications, cloud & big data computing, Internet of people and smart city innovation (smartworld/SCALCOM/UIC/ATC/CBDcom/IOP/SCI) (pp. 1-6). IEEE.
  9. ^ Dong, Y., Su, H., Wu, B., Li, Z., Liu, W., Zhang, T., & Zhu, J. (2019). Efficient decision-based black-box adversarial attacks on face recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 7714-7722).
  10. ^ Lipton, Z. C. (2018). The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery. Queue, 16(3), 31-57.