張揚:
新加坡國立大學博士生。從事可解釋性機器學習研究,以第一作者身份發表相關論文于NeurIPS,MICCAI等會議。曾在德國亞琛工業大學,慕尼黑工業大學,微軟亞研院進行過研究實習。
解釋黑盒神經網絡的一種主要方法是特征歸因(feature attribution),即識别輸入特征對網絡預測的重要性。最近有方法提出使用信息瓶頸(information bottleneck)模型來識别特征所包含的信息并以此衡量特征的重要性。之前的方法通常通過在神經網絡内部插入信息瓶頸來識别對模型預測有意義的特征。我們提出了一種在輸入空間中使用信息瓶頸并識别含有有效信息的輸入特征的方法。該方法可生成比以往更加細化的模型解釋,并且可以應用在任意模型架構上。
1
INTRODUCTION AND MOTIVATION
可解釋性的重要性
即便今日的深度學習發展迅速,各種模型也比較成熟。但是神經網絡依舊是一個黑盒模型,我們對其内部的結構仍然所知甚少。這樣一種不可理解的特質,使得深度網絡始終無法大規模部署到醫療、金融等對錯誤判斷非常敏感的領域。神經網絡不夠可信的例子有很多,比較有代表性的是美國特斯拉所采用的自動駕駛系統,有過許多因識别錯目标而導緻的公路事故。下圖即是特斯拉的視覺系統錯誤的将一輛翻倒的卡車識别為藍天而導緻事故。
以上種種,可見學界與工業界對可解釋模型有需求。部署可解釋模型可以幫助我們理解模型,使我們就能在部署和訓練的過程中提早發現問題。也能夠向監管機構更好的證明模型的行為使得模型可以通過監管部門的評估并部署到醫院,保險,民生等領域。
通過可解釋的模型打開“黑盒”有什麼意義呢?
1. 在訓練過程中指導模型朝着更好的方向去發展。
2. 讓這個模型獲得更好的回溯能力。
3. 實現更加安全、人性化且公平的AI模型。
下圖展示了傳統機器學習模型和解釋模型共同應用在醫療領域上的表現。通過生成熱力圖,我們可以輔助醫生去更好的理解模型的預測,以此減輕醫生的工作量。
2
Background
可解釋模型的分類
分類方式1:主要根據可解釋性如何獲得
Intrinsic vs post-hoc explanation
分類方式2:根據模型解釋範圍是局部還是全局
Local vs global explanation
FEATURE ATTRIBUTION 特征歸因
我們一般需要去尋找和決策相關的輸入特征,輸出的結果被稱為特征圖(attribution map)。特征歸因方法同樣可以被分為好幾類。
◾ 通過不同channel的加權平均獲得特征圖
◾ 隻能被應用在CNN上
◾ 例子有ScoreCAM , GradCAM
3
Fine-Grained Neural Network Explanation
我們提出了一種識别輸入特征的預測信息的方法,叫做InputIBA,具備以下優勢。首先,InputIBA可以直接識别輸入中含有信息的特征,相比之前方法具有更高的細粒度。其次,InputIBA是一個和模型架構無關(model-agnostic)的方法,可以應用到各種類别的網絡上。為了證明模型無關性,我們在論文中将InputIBA應用到了圖像識别和自然語言處理兩類任務中。
Background: Information Bottleneck
我們的方法基于Information Bottleneck (也稱作IBA)。該方法是通過信息瓶頸插入到神經網絡的内部來限制信息流。具體做法是在隐藏特征R種加入噪聲,并利用信息瓶頸理論構造優化函數,以求盡可能的把R裡面和預測無關的信息剔除掉。
我們把最後求得的結果作為神經網絡特定輸入的解釋。在實踐中,IBA存在一些問題,大多和涉及到的近似有關。
比如,當信息瓶頸插入到神經網絡後部時候,還需要對結果進行一些特定變換。
我們發現在進行upscale的結果依然是非常模糊的。
但是當我們将信息瓶頸插入到神經網絡前部時,Q(Z)是一個高斯分布,可是信息瓶頸越往神經網絡前部移動,Q(Z)就越不趨近于高斯分布。結果就是生成的Attribution map中很多有用的特征被移除。
下面我們也有實驗進行論證:
當信息瓶頸插入到神經網絡後部的時候,生成的結果如左圖,非常模糊;
當信息瓶頸插入到神經網絡前部的時候,生成的結果如右圖,大量有用結果被移除導緻幾乎不可見。
我們的方法就是将信息瓶頸插入到輸入之後,神經網絡之前,然後通過預測先驗知識來替代信息瓶頸再進行神經網絡的學習,得到的結果就比之前好很多。
我們需要把信息瓶頸挪到輸入層,然後定義的優化函數也随之發生變化。但是Zi變量我們無法預測,隻能通過尋找其先驗知識進行優化。
當Q(Z)預測合理的時候,都是在神經網絡的後部。我們需要将其挪到神經網絡的輸入層,具體的變換我們需要使用生成模型。計算得到的Z*變量是一個Bottleneck Variable,裡面包含針對隐藏層的預測信息。
現在我們通過輸入I構造一個ZG,再把其通過神經網絡的前半部分直到隐藏層R。這樣我們得到的變量相當于一個隐藏特征f(ZG),且和ZG對應。
接下來我們要做的便是最小化f(ZG)和Z*這兩個概率變量之間的距離。最終我們會把學到的ZG應用到ZI上。
Qualitative Comparison 結果對比
Vision (ImageNet)
我們可以發現相對于之前提出的方法,具有相當高的細粒度。
Natural Language Processing (IMDB Dataset)
在自然語言模型上,baseline方法完全失效且無法找到有效的特征,而我們的方法效果良好。
Qualitative Comparison 結果對比
我們發現,在量化實驗中,我們方法在多個基準上跑出來的結果都是要優于之前的方法。
4
總結
InputIBA避免了IBA中所使用的幾種近似,直接在輸入層中識别出預測信息。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!