近幾個月,國家政策不斷收緊,對互金的管控越來越嚴格。且“噩耗”不斷,可謂是禍不單行。
最開始,芝麻分沒了,風控無奈:我擦!
然後,學信網不再提供學曆查詢了,風控亂了:靠!
現在,銀行不會再給合作互金公司提供征信查詢服務的消息已經做實,風控哭了:不活了!
這時,各個三方數據服務公司成了救世主,想要芝麻分?來,我幫你爬!想要學曆?我這裡有!然而,圈裡人在測試了一些三方數據後發現,現在很多數據源污染嚴重,可信度越來越低。
怎麼辦?如此大環境下,風控可如何是好?看來隻能靠自己了!
不得不說,現在很多互金公司,甚至銀行,更多還是基于人行征信、黑名單和設備指紋來做風控的。對于建模和評分卡,也大多是依賴于人行、學曆、運營商以及互聯網征信數據(購買各種三方數據)。人行征信、芝麻分和學曆信息的缺失,必然會非常影響模型效果。為了對抗這一問題,黃姐姐将分享一個基于用戶行為數據的反欺詐方法。
最近剛剛結束了一個互金客戶的項目,為了對抗未來可能的數據缺失,我們在本項目中,僅拿到了用戶從下載到申請授信整個流程的行為數據。先貼一下此産品的申請流程,如下:
産品申請流程
整個申請需要填寫9個頁面(藍色方框),在每一個頁面,我們都可獲得用戶操作的具體時間,設備信息(device id、ICCID、imsi、imei等)和環境信息(ip,gps,bssid,ssid等)。此外,我們還可獲得用戶的通訊錄,手機安裝的app list以及通話記錄。基于這些數據,黃姐姐做出來怎樣的效果?先說下結論,相比于客戶人行征信模型,我們的增益率做到了17% ,其中,高信心值壞用戶誤傷比(好人壞人比)略高于3,僅高信心值用戶一年就可為客戶挽回近千萬元。
那麼黃姐姐是怎麼做到的呢?先插播一個小對話。今天,跟一個非常優秀的模型工程師XP聊天。
XP:黃姐姐,你覺得,反欺詐建模,到底是業務重要,還是模型重要?
黃姐姐:如果非要讓我選一個,我選業務。
XP:你知道嗎?我剛做模型工程師的時候,野心勃勃想要改變勞動結構,感覺模型基本能解決大部分人力,我做模型工程師就是為了解放人力!
黃姐姐:哈哈,我們都是這麼想的。
XP:但是後來,我發現,我苦逼兮兮調了一個模型2周,提升了3%-4%,而增加了一個有效的業務衍生字段,啪的一下,提高了一倍!我很不服氣啊!
黃姐姐:這很正常,所以,我才選業務。
XP:我現在很苦惱,是繼續苦逼兮兮地去調模型,還是幹脆去研究業務算了。
黃姐姐:我百度有一個好朋友,算法工程師,非常厲害。他跟我講,模型做到最後,就是去不斷做特征。世界上,成熟的算法就那麼多,就拿社交網絡分析為例,社區發現算法雖然有好幾個變種,但是中心思路都是一樣的,隻是在時間複雜度和邊的計算上略有差别。所以,我才特别注重業務知識,一個好的業務字段的衍生,有可能會讓一個模型起死回生。當然,前提是,這個模型也不能太爛。
熟悉黃姐姐的人都知道,黃姐姐始終堅持一個原則:脫離了業務的反欺詐都是耍流氓。想要靠純粹的全量暴力特征組合去建模是不現實的,一是複雜度太高,二是大部分都是無效的(噪聲會很高)。這個項目也是一樣的,黃姐姐花了很多精力研究用戶的行為,從業務層面做了一些有效的特征衍生。在此,分享幾個有趣的特征:
1. ICCID:大家都知道,ICCID是跟SIM卡相關的數據,但黃姐姐發現,會有同一個ICCID對應多個手機号碼的情況,這是如何做到的?經過調研,我們發現,市面上有一種卡,美其名曰“空白多号卡”,現在最多可支持8個号碼的寫入,如下圖所示。于是,我們可以衍生一個字段:每一個iccid對應的手機号個數;
iccid寫卡軟件
iccid讀卡設備
2. IMSI:IMSI與ICCID類似,且可以解析出手機号。黃姐姐發現,會有不同申請人共用一個device id的情況(這是很常見的手法),很奇怪的是,這些人對應的IMSI也相同,也就是,這部設備裡插的是同一張sim卡。通過解析,我們發現,此IMSI對應的手機号與申請人提交的手機号并不相同,也就是,這并非申請人本人的手機。于是,我們可以衍生一個字段:IMSI解析的手機号是否與申請人手機号一緻(可以對抗“一鍵新機”);
3. IP跳轉跨度大:申請時的IP定位地址是A城市,但日後的app使用數據包括借款時的IP都是在B城市,有可能是中介遠程做單。于是,我們可以衍生一個字段:IP跳轉跨城市;
4. 通訊錄重合人數:很多中介在幫忙做包裝的時候,都會對通訊錄和通話記錄有一些要求,比如,通話記錄要大于50條,通訊錄人數要大于80人等。于是,對于一些不滿足要求的用戶,中介會耍聰明去導入一些聯系人以達到這個指标。黃姐姐發現一個有意思的群組,10個人,其中30 用戶都是重複的。當然,這有可能是公司同事或者同學造成的,不能說這樣就一定壞,但是,至少我們知道,這是一群有關系的人:要麼是同一個中介包裝出來的,要麼是一群相互認識的人。于是,我們可以衍生一個字段:一個手機号碼出現在通訊錄的次數;
5. 通話記錄:同時接了某一個号碼的電話,或者同時撥打了某個電話,也是一個可以考量的維度。這一點要特别說明,由于通話記錄的體量非常大,通常需要做過濾處理才能使用。另外,還有一個維度可以考量,就是與公司内部員工有往來的電話号碼。現在無論是互金還是銀行,我們無法保證自己公司員工是否會對外提供風控策略信息謀取不法收入(内外勾結),黃姐姐就潛伏在各種銀行業務員的群,教你如何從銀行貸到款。于是,我們可以衍生兩個字段:同一個号碼出現的被叫人人數;一個号碼是否與内部員工有往來。
6. 下載渠道:從全量數據來看,大部分用戶都還是用手機自帶APP商城來下載APP的,例如,華為用華為應用商城,小米用小米應用商城,OPPO用OPPO可可軟件商店。當一個用戶是通過浏覽器搜索,或者某個廣告渠道(如廣點通)下載時,便可特别關注。當然,這不能說從其他渠道就壞,這個隻是一個考量維度,驗證是否有欺詐屬性,還會要用擴維的思維。于是,我們可以衍生一個字段:是否用手機自帶應用商城下載app;
7. 申請用時:從全量統計來看,申請用時過短的用戶可能是操作熟練工(中介或申請過其他貸款類産品),申請過長則有可能是中介遠程單(前半部分用戶完成,後半部分中介完成,中介不一定立馬做完)。合理地設置這一阈值(可以按照比例動态調整),可以将hurt ratio降低2-3倍。于是,我們可以衍生一個字段:申請用時過長/過短。
8. 手機号碼驗真:為了獲取用戶的授權,從運營商拿到用戶的通話詳單,通常需要對手機号碼進行驗真,也就是輸入手機号的服務密碼。在本項目中,黃姐姐看到一個很“可愛”的中介,耐心值= 2。什麼意思呢?這個群組中,75%的用戶在手機号碼驗真是,密碼輸入錯的次數都是2。我們來yy一下這個操作員的操作場景。問用戶,你知道手機服務密碼嗎?用戶說:知道。結果,第一次輸入,錯誤!第二次輸入,又錯誤!于是,中介小哥哥不耐煩了,趕緊去查詢一下再告訴我吧!好了,第三次,正确。當然,我要再次強調,這隻是一個考量維度哦,錯誤次數一樣不是說明就壞!于是,我們可以使用一個字段來做聚類:手機号服務密碼錯誤次數。
類似的還有,申請環節是否切換過device,幾個用戶是否在某幾個相同的網絡環境下出現,注冊時間是否集中,進入到申請頁面的上一個頁面是否相同(流程),是否安裝其他貸款類app(可用關鍵詞匹配),身份證年紀和填寫的學曆是否合理(年紀輕,學曆高),工作年限和年收入是否合理(工作年限少,收入非常高)等等。
好,衍生字段先分享這麼多。
特征衍生好後,就是選擇一個合适的模型來分析了。可以看到,以上特征大多适用于聚類算法,包括社交網絡分析。這一點在黃姐姐的專欄“大數據反欺詐”中都有介紹,這裡不再重複。
小小的總結:央行媽媽對我們越來越嚴格,導緻曾經非常好用的數據,未來都有無法獲得的風險。如何單純從用戶行為分析,來豐富我們識别風險的維度,已經變得越來越重要。再牛逼的模型工程師,沒有對業務知識的了解,也無法有效地衍生特征,所謂“巧婦難為無米之炊”是也。
注:本文轉載自知乎大數據反欺詐專欄;文内觀點僅供參考。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!