tft每日頭條

 > 科技

 > 風控模型建模的過程

風控模型建模的過程

科技 更新时间:2025-01-08 06:59:32

  IEEE x ATEC

  IEEE x ATEC科技思享會是由專業技術學會IEEE與前沿科技探索社區ATEC聯合主辦的技術沙龍。邀請行業專家學者分享前沿探索和技術實踐,助力數字化發展。

  在社會數字化進程中,随着網絡化、智能化服務的不斷深入,伴随服務衍生出的各類風險不容忽視。本期分享會的主題是《網絡欺詐的風險與對抗》。五位嘉賓将從不同的技術領域和觀察視角,圍繞網絡欺詐場景下的風險及對抗技術展開分享。

  以下是莊福振研究員的演講,《NN模型在金融風控場景中的應用》。

  風控模型建模的過程(北航莊福振分享)(1)

  演講嘉賓 | 莊福振

  北京航空航天大學人工智能研究院研究員

  ATEC科技精英賽高級咨詢委員會專家

  《NN模型在金融風控場景中的應用》

  很高興能來參加IEEE x ATEC科技思享會。我今天分享的題目是《NN模型在金融風控場景中的應用》。我今天的演講内容主要分成三個部分:背景,研究工作,我們的一點總結。

  衆所周知,在過去十幾年中,第三方在線支付市場發展迅速。同時,與在線交易相關的犯罪活動也大大增加,并且這種交易欺詐行為嚴重威脅了在線支付行業。2016年,互聯網犯罪投訴中心就收到了近380萬投訴,導緻超過13億的财務損失。在線交易欺詐中,最常見的是賬戶被盜以及卡被盜。賬戶被盜指的是未經授權的賬戶操作或欺詐者在控制了某人的付款賬戶後進行的交易,通常由于憑證洩露造成的。卡被盜表示某人卡的相關信息,例如卡号、賬單信息等已被欺詐者獲取并用于未經授權的一些收費。

  下面我分享一下我們和螞蟻集團聯合做的一些研究工作。主要有三個工作,一個是基于神經層級分解機的用戶事件序列分析(SIGIR 2020),第二個是基于雙重重要性感知分解機的欺詐檢測 (AAAI 2021),第三個是我們在可解釋方面提出的利用層級可解釋網絡建模用戶行為序列的跨領域欺詐檢測 (WWW 2020)。

  一、基于神經層級分解機的用戶事件序列分析

  首先是基于神經層級分解機的用戶事件序列分析。在支付業務中,每個人都從注冊系統、登錄系統,再到把自己選擇的商品放入購物車,最後做交易或者付款。根據用戶的賬戶動态,我們可以判定下次付款到底是不是一個欺詐行為。用戶的賬戶動态有豐富的數據序列信息可供利用。單純隻關注特征組合的工作或者單純關注序列信息的工作,都隻能從單獨的角度去建模用戶事件序列行為,每個事件僅通過簡單的嵌入、拼接或者全連接,而難以獲得更好的事件表示。我們希望設計一個層次化的模型同時結合這兩方面進行建模,從而對欺詐檢測進行分析。

  風控模型建模的過程(北航莊福振分享)(2)

  右圖有兩個案例,一個是在某網站上的電影點評記錄(如圖1),同樣也是一個用戶行為序列,這裡面最大的一個貢獻是怎麼去做這個事件的表示。我們剛才看到,每個事件實際上都包含了很多的特征。

  風控模型建模的過程(北航莊福振分享)(3)

  如圖2所示,一個事件的特征包含X1到Xn這麼多個特征。我們在用戶的事件序列裡,包括e1到eT的T個事件,每個事件在場景裡面有56個特征,包括50個類别型特征和6個數字型特征。事件内部的特征之間的組合實際上更具判别性地來判定、預測欺詐檢驗。例如在1分鐘之内進行的跨國交易,我們就很容易判斷這是一筆盜卡行為。我們希望用FM模型去建模這種特征組合關系。FM是一種在嵌入空間中自動進行二階特征組合的模型。看一下(圖2)事件的表示:vi跟vj是兩個特征向量化的空間表示,它是兩兩特征之間的一個組合,Xi跟Xj實際上是一個權重的表示。最後我們會得到一個事件的表示,從特征交互得到一個事件表示。

  風控模型建模的過程(北航莊福振分享)(4)

  當這個事件表示完後,我們希望得到一個比較好的序列表示,即我們對這個序列進行提取一個比較好的特征表示。每個用戶序列實際上包含多個事件,兩個事件組合發生,對欺詐行為檢測更具有判别性。同樣的,我們也希望去考慮事件之間的序列的影響。比如說我們先做A事件再做B事件,可能會導緻欺詐的可能性變大。我們希望我們的模型能夠去建模這種序列的影響。從剛才的角度出發,事件組合的建模用S來表示,同樣也是因子分解機去做的。不同事件兩兩組合,qi和qj也是它的一個權重。對于序列影響,我們從兩方面去考慮,一是從事件自身的重要性去考慮,它有一個自注意力機制來表示就是Sself;還有一個是用RNN網絡來去建模事件的曆史序列行為信息,也就是雙向的LSTM去建模。最後,我們可得出這個序列是由三部分組成:事件的組合;事件的自注意力機制;事件本身具有的一個特征。把三者組合在一起得到整體的序列表示。

  風控模型建模的過程(北航莊福振分享)(5)

  右邊這張圖是我們提出的一個框架,也叫做神經層級分解機。從底部開始,是事件的特征。我們對這個事件特征進行編碼後,就可以得到這個事件的表示,從而學習這個序列的表示。提取後,可以看到模型做一個多層感知機的輸出。我們同樣可以在這個Feature上面去做一個線性的分類。最終我們把這兩部分當成一個Sigmoid的一個參數,得到0到1之間的輸出,最終的一個優化函數其實是一個交叉熵的損失函數,N是對所有有标記的數據進行學習。這是我們的模型的一個框架。

  風控模型建模的過程(北航莊福振分享)(6)

  在這個實驗中,我們利用工業界裡面的一個真實的數據集。例如在一個電商平台上,我們從該平台上面拿到了三個地域的數據集。這個數據集正例是欺詐行為,負例是正常的交易行為,可以看到正常交易行為和異常的欺詐行為,相差非常大、類别非常不平衡。我們的公開數據集上、電影上的數據集也做了一個實驗。在基準的算法比較上,我們采用了比較先進的一些算法,比如WD(Wide deep)寬度和深度,還有NFM、DeepFM、xDeepFM,以及M3利用混合模型同時學習序列的長短期依賴的模型。

  風控模型建模的過程(北航莊福振分享)(7)

  我們的評價指标是采用真實工業場景裡面比較關注的低用戶打擾率時的召回率,即我們在給出結果時,希望對前面頭部的百分之多少的用戶打電話告訴他們這可能是一個欺詐行為。例如打1000個電話,這1000個應該都是有欺詐行為,即這個比例應該是越高越好的,因此我們采用的評價指标更關注于ROC曲線的頭部(FPR

  風控模型建模的過程(北航莊福振分享)(8)

  從左下方這張圖,可以看到這種IP 的變化、還有包括其他的特征值、字段的值的變化,會導緻一些欺詐行為的發生。

  二、基于雙重重要性感知分解機的欺詐檢測

  風控模型建模的過程(北航莊福振分享)(9)

  基于雙重重要性感知的一個分解機用于欺詐檢測。在剛才第一個工作裡面,可以看到IP在不斷變化。我們需要把一個系列化的事件的某個值、某個字段的演變考慮進去。即同一字段值的演變和不同字段值的交互實際上是非常重要的,而現有的工作沒有同時關注到這兩點。因此,我們想設計一個DIFM模型同時結合這兩個方面。

  風控模型建模的過程(北航莊福振分享)(10)

  我們同樣也是基于這個FM模型做了一個框架。首先,對于每個階段,我們也是通過FM模型去捕獲不同事件的兩兩之間的演變。可以看到Figure3這張圖,從棕色這個方向我們去考慮f1的特征,是指它随事件變化,我們去把它給建模出來,這就是我們新加的一個貢獻。到FM建模以後,我們又提出了一個Field Importance-aware這樣的一個感知模塊。用注意力機制去感知哪個字段的演變對我們的預測更加重要,我們又提出了一個叫重要性感知的模塊。另外一個方向的話,我們在前面針對每個事件,模型通過FM捕獲了不同字段值的兩兩交互特征(圖中藍色部分),然後通過Event Importance-aware模塊利用注意力機制感知哪個事件更重要(圖中綠色部分)。最後我們再通過Field Importance-aware模塊和Event Importance-aware模塊得到的兩部分信息以及當前事件特征輸出預測結果。可以看到這個模型是比較簡單而且實用的,我們在這個業務應用場景裡面,可以高效率而且效果比較好地在線上去部署,這個就是我們提出的第二個工作。

  風控模型建模的過程(北航莊福振分享)(11)

  第二個工作的一些實驗結果,也是利用了第一個工作裡面的三個地域的數據集。我們在這個工作裡面又增加了一些精準算法,包括AFM,還有利用LSTM做欺詐檢測,還有包括用Latent Cross将上下文信息集成到RNN中,這個數據跟上一個工作的實驗數據是一樣的。

  風控模型建模的過程(北航莊福振分享)(12)

  從這個結果可以看到,同樣我們是采用低用戶打擾率時的召回率去評價我們的實驗,可以看到最底下DIFM(我們的一個實驗結果),實驗結果大大優越所有的baseline,包括消融實驗,DIFM-α隻考慮字段值演變,DIFM-β隻考慮字段值交互,DIFM是兩個子模型的結合,DIFM也是優越于前面所有的比較算法,這就是我們提的一個又簡單又實用的算法。

  風控模型建模的過程(北航莊福振分享)(13)

  在可解釋性方面的話,我們的模型還能夠提取到高風險的特征和高風險的事件。從上面右邊這張圖可以看到藍色圓圈,每一次變化都會變成一個藍色圓圈,相對有一些改變。可以看到卡後面尾數落在每個區間,每一次的變化就會産生一個欺詐的行為,或者卡值的一個變化。還有包括IP的變化,我們都可以去把它catch出來。這就是我們提出來的、去顯示地建模這種一個字段值随着事件、序列在變化的情況用于欺詐檢測,同樣也為可解釋提供了一個比較好的借鑒。衆所周知,在金融欺詐檢測裡面可解釋性是非常必要的,即你去告訴用戶此交易行為是一個欺詐行為時,你必須告訴他有哪些特征可能違反了哪些規則,或者你的事件可能導緻一些欺詐行為。可解釋性就變成了一個非常重要的工作。在接下來的這些工作裡,希望我們也從可解釋性的角度去對整個過程,從特征層面、從事件層面、 也包括我們跨領域的層面去做可解釋性的層次模型。因此我們也提出利用層級可解釋性網絡來建模用戶行為序列的一個跨領域的欺詐檢測。

  三、利用層級可解釋網絡建模用戶行為序列的跨領域欺詐檢測

  風控模型建模的過程(北航莊福振分享)(14)

  Motivation的話,其實也比較簡單、比較直接。第一,前面我們知道了用戶行為序列是非常重要的。第二,我們希望考慮這種可解釋性對我們的業務的幫助。第三,這個電商平台在不同的地域新開展業務時,可能因數據量少而不能很好建模的情況下,我們希望從其他數據比較成熟或者模型比較成熟的平台中,把它遷移或借鑒過來,去建模一個跨領域的欺詐檢測模型。

  風控模型建模的過程(北航莊福振分享)(15)

  我們提出了這種層次可解釋網絡。首先我們提出了一個特征層面、事件層面的可解釋性網絡來對這個欺詐檢測。右邊的圖片是我們提出的一個框架,同樣的,前面是我們對這個特征進行編碼。Field-level Extractor是對事件的表示。事件表示完之後,是對序列的表示。還有一個我們叫做Wide layer。Wide layer是單純用特征去學的線性分類器,我們這邊串聯後用多層感知機來去做。這裡面的可解釋性就體現在從單領域的模型裡面有兩個可解釋,一個是哪些字段 、哪些特征是比較重要的,以及序列當中哪些曆史事件比較重要的。

  風控模型建模的過程(北航莊福振分享)(16)

  對于每一步,第一個Look-up embedding,我們實際上是對這個特征值進行一個向量的轉化。我們把這個轉化分為類别型的、數值型的轉化規則,采用這個式子去做轉化。Field-level Extractor是對事件的一個表示,前面的工作我們隻考慮了即兩兩特征之間的交互,顯示哪個特征比較重要,我們加了一個wit,這個wi相當于是說針對這個特征,在T時刻它的特征的重要性的歸一化。對于事件,它同樣有一個事件重要性的表達式,也就是UT,UT就是下面的表達式。下面還有Wide layer對白名單進行學習,即我們用線性分析去學習,最後預測跟學習問題,我們同樣也是用MLP還有包括sigmoid函數,來把它映射到0跟1之間,用交叉熵來去學習整個學習問題,這個是L(θ)。

  風控模型建模的過程(北航莊福振分享)(17)

  我們又提出一個遷移學習框架,剛才說到可能不同地域或者不同場景,數據有些是少的、有些是多的。我們希望由(數據)少的來幫助(數據)多的。我們把少的叫做Target Events,數據量多的叫做源領域或者Source Events。在這裡,我們希望去學到源領域和目标領域特有的一些知識,還有它們兩個共享的一些東西。我們希望這個Source可以共享一些知識去幫助Target學習及一些預測。從幾方面來考慮,在我們場景裡面,一個是Embedding策略、為什麼要提出Embedding策略、共享和你特有的行為序列的抽取,還有包括你的領域的注意力。也就是在一定程度上解釋說我這個領域幫助了我的Target問題、幫助了多少、我們怎麼去對齊不同領域之間的一個分布,也就是Aligning Distributions。可解釋性就體現在Domain Attention的角度。

  風控模型建模的過程(北航莊福振分享)(18)

  我們為什麼要提出這種Embedding策略?我們都知道由于不同地域的相同字段對應的取值可能不同,例如中國跟越南的消費字段、消費額不同,中國可能是0到100塊錢,而在越南可能就不是0到100塊錢。所以字段的取值可能是不一樣的,不同地域的用戶行為習慣可能不同,相同的提取器可能無法同時對兩個地域有效,所以将行為序列提取器也分為Domain-Specific和Domain-Shared。即我們把一些特定的或者是領域不變的一些特征遷移過來,保持自身領域特有的一些東西。我們在這個領域的Attention上,把它也分成一個領域特有和領域共享的表示,即Shared和Specific兩個因子,計算公式如圖所示。在不同領域之間的分布的對齊方面,我們知道傳統的對齊方法在我們的應用場景裡面是不适合的,因為在我們的場景裡類别是極其不平衡的,即我們得到的這個正負類比例相差非常大。例如我們甚至可以是一比一萬,一萬條裡面可能隻有一條是異常行為。我們去提出這種Class-aware,即類别感知的Euclidean Distance。從這個角度去講,我們計算這個領域距離時,是從類别上面去做的,即考慮不同類别的一個過程。

  風控模型建模的過程(北航莊福振分享)(19)

  進一步,我們的遷移學習框架泛化成一個通用的遷移學習框架。從上圖的右圖可以看到:虛線的表示我們提出的是一個層次可解釋網絡,這是作為一個序列的提取器,即我們可以把這個虛線裡面的序列提取器換成其它的模型去作為事件的提取器。例如我們這個遷移模型,我們可以把其他的baseline作為我們的一個特殊情況納入到我們的遷移學習框架裡面。所以隻需要定義好哪部分作為行為序列提取器,我們就可以去做這樣一個欺詐監測模型。

  風控模型建模的過程(北航莊福振分享)(20)

  同樣的,我們在這個數據集上面也采用了某電商平台上面的數據集,此次我們在這個數據集上加了一個數據集比較少的情況,即它可能隻有幾百、幾千的一個正例,負例可能十幾萬。同樣的,我們把數據最少的作為Target Events去做我們的實驗。對于bassline,我們同樣也是選擇WD、NFM、LSTM4FD還有M3R這樣的Fraud baseline去做我們的基礎模型。我們先看一些單領域的實驗結果,也是采用低用戶打擾的召回率作為我們的評價指标。

  風控模型建模的過程(北航莊福振分享)(21)

  可以看到這兩張圖,是在C1、C2、C3、C4這4個地域上的實驗結果,都比baseline要好很多,最後的豎線就是我們的模型結果。

  風控模型建模的過程(北航莊福振分享)(22)

  我們同樣把我們的遷移學習框架用于所有base model上,即我們把剛才所有baseline的model序列行為提取器放到遷移學習框架裡,把中間的虛線部分給替換掉。藍線是我們用了遷移學習框架後得到的一個結果。結果證明,在遷移學習後可以得到比較好的實驗結果。這個橫軸是表示我們采用數據的從少到多,如從一個星期作訓練數據到兩個星期三個星期……所以随着訓練數據的增加,結果一般也是變好的。這個藍線,指我們先前的效果比原來要好很多。大概情況就是這樣。

  風控模型建模的過程(北航莊福振分享)(23)

  從結果的可解性來看,可以看到從特征層面,每一行的顔色越深、它的特征越重要。可以看到有明顯的catch到我們重要性的一個特征。從豎的Y軸上面看,深度越深事件越重要,我們可以catch到不同事件的重要性。下面可以看出Domain-Shared等于0.56,意思是說我們建立這個Target 模型,Shared部分貢獻的知識是56%,Target自己本身是44%。可以看到,我們從三個層面,從特征的粒度到事件的力度然後再到屬性的力度,去做這樣一個可解釋。

  風控模型建模的過程(北航莊福振分享)(24)

  我們提出的模型已經在該電商網站ATO(account takeover)場景落地,可提供賬戶交易風險分析,進行識别防控以及事件粒度/屬性粒度的權重值分析,輔助運營同學判斷還原風險路徑。我們提出的工作也上線進行了部署。

  風控模型建模的過程(北航莊福振分享)(25)

  最後,我們總結一下,我們在合作過程當中,提出神經層次分解機對用戶事件序列進行分析,同時建模Field之間交互關系以及Field Value演化的欺詐檢測模型,提出通用的遷移學習可解釋框架,我們對檢測欺詐結果的可解釋。最後我們也進行了線上部署應用落地。現在已經應用得比較好,特别是在一些場景裡面把我們的算法結合到欺詐檢測的模塊裡面去。

  我的分享就到這裡,非常感謝。

  雷峰網

  ,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved