tft每日頭條

 > 生活

 > 風控審核一般審核多久

風控審核一般審核多久

生活 更新时间:2024-07-29 12:31:11

随着互聯網在傳統金融和電子商務領域的不斷滲透,風控 互聯網的融合也對傳統的風控提出了新的要求和挑戰。以評分卡為例,互聯網形态下的評分卡需要面臨更多維數據、更實時數據、更異常數據的挑戰。因此,懂得互聯網業務下的風控評分卡已經成為互聯網風控從業人員的新要求。

風控審核一般審核多久(評分卡都看不懂)1

在之前的文章中,有好幾位業内朋友溝通說要有一篇關于風控評分卡的教程類的文章,于是趁着周末趕緊完成了這篇似是而非的working paper。

一、引言

這兩年随着互聯網電商業務和互聯網金融業務的興起,原本着力于銀行、證券、信托等傳統金融領域的風控職能的HC,在這兩大塊也越來越多,而互聯網自身獨特屬性的加入又給這個已經存在了近一百年的崗位賦予了新的外延與生命。

無論是風控職能中的什麼崗位,産品、策略、數據分析、模型等等,最終都是要跟業務挂鈎,而孕育風控崗位的金融業務又是一個天生以數據驅動的行業,這也就決定了風控天生的“數字”屬性。

這個屬性無論是在傳統金融領域、新興的互聯網金融乃至更為廣泛的電商領域,都無法磨滅其數學的印迹。

“數據驅動業務”是風控的核心,無論是金融風控還是電商風控!數學是定量解決複雜問題最有效的工具,在做風控的過程中你會發現你遺失多年的概率論、矩陣都開始有了新的用武之地。

在當前的互聯網環境下,互聯網風控已經成為了一項數學、金融學、信息安全、管理科學、行為心理學等多學科交叉的複雜業務,以定量/定性分析的思維,使用傳統的經濟學分析範式:

  • 在橫向時間線上需要做到預知風險、監控風險和處置風險;
  • 在縱向流程線上做到發現問題、分析問題和解決問題。

而作為風控最重要的工具之一“評分卡”自然而然就是這種套路的産物,所以作為風控從業者,看懂評分卡已經成為了風控從業人員的基本素質之一。

本文以經典的邏輯回歸模型為主,完成一套标準評分卡構建。

二、樣本準備與數據處理

本文所使用數據來源于某平台某年度數十萬信貸樣本數據,為保證業務隐私業務指标與關鍵變量已做脫敏處理,僅用于展示評分卡構建過程。

1. 樣本選取

選取一定時間周期内該平台上的信貸樣本數據(以人為維度),按照會員号尾号(0-9)切分的方式做随機樣本集,最終選取訓練集17萬,測試集11萬,驗證集11萬。

為了更好表述樣本特征,其中以逾期超過X天為bad樣本(label為1),逾期小于y天為good樣本(lable為0),中間模糊樣本暫不進入模型訓練。

具體以0-1樣本的劃分标準以實際業務為準,信貸業務中重點還是看貸後的遷移情況。

2. 變量選取

基于選中的數十萬樣本,結合業務的經驗,選擇數百描述性變量,并對變量做進一步衍生工作。

基于不同的業務形式有不同的變量選擇,每一個模型會有不同的樣式,具體需要結合對業務的理解進行模型構建。此處讀者可針對性的學習“特征選擇”相關知識。

以下為模型選擇的一小部分變量截圖,部分敏感變量做脫敏處理:

風控審核一般審核多久(評分卡都看不懂)2

3. 數據處理

數據處理是模型構建之前最核心的也是最費工時的步驟,需要數據處理人員對于數據的來源、特點、字段本質有着較為深入的理解,才能有效處理好數據,失去了意義的數據僅僅是數字而已

3.1 異常數據處理

異常數據指的是因為多種不可預知的原因(數據原因、樣本原因、技術原因、曆史原因)導緻的不能建模數據,常見的主要指的是缺失值和極端值。

3.1.1缺失值處理

這種情況在現實問題中非常普遍,尤其線上征信數據因為征信渠道覆蓋不全、超時、前期未取數等多原因經常會出現大批量的數據确實問題,這會導緻一些不能處理缺失值的分析方法無法應用。

因此,在評分卡模型開發的第一步我們就要進行缺失值處理。缺失值處理的方法,包括如下幾種:直接删除含有缺失值的樣本;根據樣本之間的相似性填補缺失值;根據變量之間的相關關系填補缺失值。

3.1.2極端值處理

缺失值處理完畢後,我們還需要進行異常值處理。異常值是指明顯偏離大多數抽樣數據的數值,比如個人客戶的年齡為0時,通常認為該值為異常值。找出樣本總體中的異常值,通常采用離群值檢測的方法。

3.2 探索性分析、變量處理和選擇

3.2.1 探索性分析

探索性分析有助于幫助我們對數據結構有較為直觀的認知,通過對已有的數據(特别是調查或觀察得來的原始數據)在盡量少的先驗假定下進行探索,常用的探索性數據分析方法有:直方圖、散點圖和箱線圖等

3.2.2 變量處理

完成了數據異常處理之後并不是直接可以進模型的,需要對特定變量進行處理,如對定性變量進行量化(如婚姻狀态,并不能簡單的用枚舉值1、2、3、4代替)。我個人常用的方法主要有:

1)變量分箱(binning)是對連續變量離散化(discretization)的一種稱呼。信用評分卡開發中一般有常用的等距分段、等深分段、最優分段。

如年齡,在外面的業務場景中年齡越小和年齡越大,違約概率都會偏大,所以這塊需要做好分箱處理

2)WoE分析是對指标分箱、計算各個檔位的WoE值并觀察WoE值随指标變化的趨勢。在進行分析時,我們需要對各指标從小到大排列,并計算出相應分檔的WoE值。

其中:正向指标越大,WoE值越小;反向指标越大,WoE值越大

3.2.3 變量選擇

我們會用經過清洗後的數據看一下變量間的相關性。注意,這裡的相關性分析隻是初步的檢查,進一步檢查模型的IV(證據權重)作為變量篩選的依據。此處較簡單,在此不贅述。

總之,數據處理的過程是占據整個标準評分卡構建的最大的工作量,整體的目标是:排除異常值對模型訓練的幹擾,将所有變量進行量化處理,自變量對因變量有明顯的解釋性,變量之間無明顯相關性。

三、模型構建與評分卡轉換

1. 模型構建

将處理好的變量進入模型,邏輯回歸模型較為簡單,訓練速度也很快,實現邏輯回歸模型的工具也很多,在此不多贅述,讀者可以根據自己的興趣選擇合适的實現方法。

邏輯回歸的表達形式如下:

p代表一個樣本是bad樣本的概率,P越大bad概率越大,x指的是進入模型的各個變量,β為該變量的系數,通過上述表達式,我們知道如果某個變量的β為正值,那麼x越大則p越大,代表這個變量越大越壞。

通過工具,我們可以計算出一組訓練集對應的變量,下為展示截圖:

風控審核一般審核多久(評分卡都看不懂)3

2. 評分卡轉換

上為邏輯回歸模型的構建過程,而邏輯回歸模型可以通過以下步驟轉化為評分卡。

由邏輯回歸的基本原理,我們将客戶違約的概率表示為p,則正常的概率為1-p。因此,可以設:

此時,客戶違約的概率p可表示為:

根據邏輯回歸計算可得:

評分卡設定的分值刻度可以通過将分值表示為比率對數的線性表達式來定義,即可表示為下式:

其中,A和B是常數。式中的負号可以使得違約概率越低,得分越高。通常情況下,這是分值的理想變動方向,即高分值代表低風險,低分值代表高風險。

式中的常數A、B的值可以通過将兩個已知或假設的分值帶入計算得到。通常情況下,需要設定兩個假設:

(1)給某個特定的比率設定特定的預期分值;

(2)确定比率翻番的分數(PDO)

根據以上的分析,我們首先假設比率為x的特定點的分值為P。則比率為2x的點的分值應該為P-PDO。代入式中,可以得到如下兩個等式:

假設我們期望x=(bad/good)=5%時的分值為50分,PDO為10分(即每增加10分bad/good比例就會縮減一半),代入式中求得:B=14.43,A=6.78,這個時候bad/good=10%時score=40

評分卡刻度參數A和B确定以後,就可以計算比率和違約概率,以及對應的分值了。通常将常數A稱為補償,常數B稱為刻度。則評分卡的分值可表達為:

式中:變量x1…xn是出現在最終模型中的自變量,即為入模指标。由于此時所有變量都用WOE轉換進行了轉換,可以将這些自變量中的每一個都寫(βiωij)δij的形式:

式中ωij 為第i行第j個變量的WOE,為已知變量;βi為邏輯回歸方程中的系數,為已知變量;δij為二元變量,表示變量i是否取第j個值。上式可重新表示為:

此式即為最終評分卡公式。如果x1…xn變量取不同行并計算其WOE值,式中表示的标準評分卡格式,基礎分值等于(A−Bβ0);由于分值分配公式中的負号,模型參數β0,β1,…,βn也應該是負值;變量xi的第j行的分值取決于以下三個數值:

風控審核一般審核多久(評分卡都看不懂)4

總的來說整體的思想就是根據每個變量的系數進行評分轉換,好的變量我們給與高的評分,壞的變量給與低分或者負分。

本文構建的評分卡如下(本文的odds設為50):

風控審核一般審核多久(評分卡都看不懂)5

從上表來看,評分卡的表達形式是很簡單的,如學曆是碩士加幾分這樣。但是很多人就以為評分卡是拍腦袋出來的,這是個非常錯誤的想法,每一個變量的評分多少都是基于模型的結果,所以在此也給部分風控從業者小小的提示一下:評分卡是一個科學的度量工具,不是拍腦袋盲人摸象就能出來的,隻知其一不知其二是很可怕的事情。

本文樣本中在驗證集上最終構建的評分卡結果表現如下:

風控審核一般審核多久(評分卡都看不懂)6

X軸代表不同的評分區間,柱狀圖代表驗證集下該評分區間的人數,折線圖代表該評分區間的bad比例,我們發現柱狀人數在整體評分區間下基本呈現正态分布,整體bad占比随着評分上升違約率不斷下降,證明這是一個較為行之有效的評分卡,可以利用評分卡的結果做更多的策略應用(為保護業務數據隐私,已隐藏)。

上述是根據模型訓練出來的結果在驗證集中的表現情況,當有一個新的進件申請時,參考上述評分卡,可以對新進件有一個直觀的評分,并基于模型表現可以大概預計新進件的違約概率,以此在業務決策中給出決定性的意見。

四、結論與展望

本文以經典的邏輯回歸模型為主,結合實際業務數據構建一套評分卡模型,以此來幫助更好的理解評分卡模型的構建流程,以期能夠幫助風控從業者更好的理解評分卡的本質、目的和應用。

更進一步的,我們在實際的風控業務應用中,評分卡模型的思路除了傳統的申請信用平分之外,已經拓展到更多的業務場景,關鍵是在于定義好尋求的目标target,如是否團夥、是否羊毛黨、是否DDOS攻擊等等,并結合對目标的理解尋覓适合的變量。

用評分卡這種通用的方法可以解決在風控領域絕大多數拍腦袋的問題,真正的以數據來驅動業務。當然評分卡的模型可以是多種的,讀者在了解評分卡的本質基礎上可以嘗試做更多試探性的研究。

參考文獻

[1]WoodS, Reynolds J. Leveraging locational insights within retail store development?Assessing the use of location planners’ knowledge in retail marketing[J].Geoforum, 2012, 43(6):1076-1087.

[2]MaioV D, Prodan R, Benedict S, et al. Modelling energy consumption of networktransfers and virtual machine migration [J]. Future Generation ComputerSystems, 2016, 56(C):388-406.

[3]Murthi,B. P S, Steffes. Developing a measure of risk adjusted revenue (RAR) in creditcards;market: Implications for customer relationship management[J]. EuropeanJournal of Operational Research, 2013, 224(2):425-434.

[4]朱衛東, 吳鵬. 引入TOPSIS法的風險預警模型能提高模型的預警準确度嗎?——來自我國制造業上市公司的經驗證據[J]. 中國管理科學, 2015, 23(11):96-104.

[5]丁衛東. 信用評分卡在電商小微企業信貸中的應用[D]. 浙江大學, 2016.

[6]鞠勐. N銀行Y支行個人貸款信用風險管理研究[D]. 南京師範大學, 2015.

作者:獨孤qiu敗,互聯網風控那些事兒(anti_fraud_share),互聯網行業風控産品經理,定期分享互聯網風控相關業界動态、系統設計方案、模型算法。

本文由 @獨孤qiu敗 原創發布于人人都是産品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved