分享嘉賓:李家琛 哔哩哔哩 風控負責人
編輯整理:尹鵬慶 杭州師範大學
出品平台:DataFunTalk
導讀:随着互聯網時代的到來,互聯網行業内業務模式在不斷創新的同時也遭遇到了前所未有的挑戰。互聯網世界的信息實時傳遞,用戶可以随時随地訪問各種業務系統,給人們的日常生活帶來極大便利的同時,也帶來了一系列如虛拟機、虛拟手機号、信息洩露等防不勝防的風險和安全隐患。基于這種情況,如何實現更加精準高效的風控将成為互聯網行業内亟待解決的重要問題。今天的分享将以B站為主要案例,具體講述互聯網行業内全場景聯防聯控的相關措施。
--
01
互聯網風控的概述
首先從宏觀上介紹風控。
1. 風控的分類
風控(Risk Control)一般被劃分為互聯網和金融兩個領域。在互聯網領域内又可以繼續細分為反作弊反欺詐和内容安全兩個子類。
風控在金融領域内可以繼續細分為反欺詐、評分卡。
2. 互聯網風控的全場景作弊類型
具體到互聯網風控,存在着上圖中的一些風險場景。例如,從應用市場下載APP開始就存在作弊行為,我們可能在不同應用市場有一些營銷投入,有設備下載安裝會付一些錢,有些應用市場就可能買一些虛假的量來下載激活。活動方面,比如裂變拉新,希望通過一些資金獎勵去拉取更多的真實用戶,這時就有黑産來薅羊毛,騙取獎勵。流量方面,粉絲、播放量和點贊量對up主非常重要,因此就存在刷粉刷贊等行為。
3. 風控的對手
在了解了風控的類型之後,需要認識進行風控時會遇到的對手——黑産。黑産在日常生活中比較常見,它們一般擁有社工庫(第三方洩露的賬号密碼)、代理IP池這種基礎資源,以及模拟器、自動化軟件這種比較專業的技術工具。
4. 虛假設備
--
02
精準感知流量
1. 你的業務對黑産的價值
首先要了解自己業務對黑産的價值,黑産往往會找利益高的活動薅羊毛。例如我們的裂變活動,拉一個用戶給5-10元的獎勵,利益是比較高的。流量部分,沒有直接的利益,隻有間接的利益,比如刷投票或排行榜,使自己變成大v,再形成聲譽的轉換,因此利益較低。
2. 數據化感知黑産
上圖是一個如何感知黑産的示例。如左圖所示,每日人數在2000左右,但在第五天,人數突破5000,如果沒有做特别的宣推,那麼就存在被攻擊的可能。再把這一天的流量拆到小時,如右圖所示,在10-14點間發生了突變,和其它日期的潮汐效應對比,就可以感知到存在黑産攻擊。
再進一步,如果每天流量都是2000左右,就一定不存在攻擊嗎?答案是不一定。我們會再将數據拆成KL散度,如城市、品牌等。例如小米品牌每天的數量是200左右,某天突然漲到300,那麼就要考慮是否存在風險。除此以外,還有均值檢測,對一些低版本比如安卓7以下版本的比例趨勢變化進行監測,如果在某天或某個小時,發生了突變,則可能存在風險。
3. 黑産團夥流向
監測黑産團夥流向,首先要登錄疑似人群,建立一個群組;第二步,分析這個群組後續行為,看它的分支流向,提升信息厚度;最後選擇合适的位置進行攔截,比如在微信時放過,而在提現時攔截。
4. 自動化異常流向挖掘
我們要對不同場景建立不同的API的漏過監測。對漏過部分自動挖掘流量流向,和近七日同比,去3倍定位到異常流向。
--
03
全場景聯防聯控
1. 分層級識别對抗黑灰産
首先是感知風險,通過情報搜集、指标監控、異常檢測等手段來感知風險。
第二是識别風險,可以通過策略算法召回。
第三步處置風險,包括實施攔截、用戶封禁、提現攔截等等。
感知方面,我們有很多手段對自有數據進行監測。比如一個師傅拉了100個徒弟,後期都沒有繼續消費,ROI很低,那麼師傅可能就存在問題。我們可能要去看他支付寶綁定的特征,是否是批量綁定。我們還會去電商看是否出現低價會員售賣等。如此形成全方位的漏過監測。
外部數據也非常重要,我們會有提現檢測、IP檢測、第三方的輿情監測等。
2. 單場景和跨場景識别
單場景指的是在單一活動中形成一套策略體系,識别風險。
B站的場景非常多,有一些場景很相似,有些則互相影響,需要進行聯防聯控。比如相似的一些場景,可以共用一套策略。又如,風控領域内會有一種團夥流竄的行為,先盜取國外的卡去支付,支付完了,再打賞給up主,這樣形成團夥的流竄行為,進行盜刷的一個黑色鍊條。
上圖是一個跨場景的例子,先注冊、登錄,打開設備,參加很多活動,再批量綁定、提現。我們要充分利用跨場景數據,比如注冊時間一樣的一群人,同時來參加活動,又同時發起提現。又如活動1的黑名單可以在活動2 中使用。
交叉驗證是我們經常用到的一個策略。例如Mate30不可能用到安卓7.0.0版本。又如一個手機如果正在充電,那電量就不應該是100%。這樣将特征兩兩組合,就可以判斷設備的真實性。
我們把所有特征分為三類:
A類-中高熵特征,重複概率很低,如用戶ID、IP等;
B類-枚舉值特征或數字特征,如城市;
C類-數字特征,如安卓低版本的比例。
我們進行特征組合,會計算A類特征下B類特征分布的标準差,如果趨近于0,則認為是同一類人。還會計算A類特征下,C類特征均值,比如一個IP下安卓版本都比較低,那麼這群人就比較可疑。
3. 處置風險
下面來看一下處置風險的方式。
我們會通過極驗-旋轉圖片到正确角度,短信認證,讓用戶答幾道題,綁定身份證才能參與活動等柔性的處理方法,讓用戶感知不到自己被進行風控操作了。
普通的打擊可能是不允許登錄,或者取消獎勵,提現失敗。而延遲打擊,則是在登錄時把用戶加入黑名單,此時用戶不知道自己被風控了,當用戶想提現1塊錢時也允許他提,但是想提現5塊錢時,就不允許提了,這樣就擡高了黑産的成本,而我們又能實現全鍊路的風險控制。
4. 冷啟動
對于冷啟動業務,為了控制風險,要有一些具體的業務規則來約束。
--
04
總結
本次分享首先帶領大家認識了一下風控的相關概念,以及風控對象-黑産的基礎知識,比如黑産的專業化工具以及具體案例等,對整個風控領域的上下遊鍊路都有了一定的了解。然後講到了在真實的業務場景當中怎麼根據一些指标和統計趨勢來感知風險,監測流量的異常情況,當然還有一些第三方的情報也是很重要的。
關于場景的聯防聯控,我們要用警察抓小偷的視角來進行觀察,就是單場景防控,類似于我們需要在一個街道裡去抓小偷,而全場景則需要在全市中所有的街道,甚至是多地警方同時出動、跨省追捕,這種聯防聯控的形式,才有機會成功把這個小偷跨省抓捕歸案。延遲打擊的概念,就類似于有一個小偷,背後有一整個團夥,我們先不要驚動他,可以給他打一個标記,等到他回到這個團夥基地的時候,再對它進行根本性打擊,這種操作方式就叫做延遲打擊。最後介紹了交叉驗證,以及一些自動化衍生策略的體系。互聯網時代下,各大互聯網公司平台進行全場景聯防聯控的重要性不言而喻,希望今天的分享能為大家提供一些幫助。
今天的分享就到這裡,謝謝大家。
閱讀更多技術幹貨文章、下載講師PPT,請關注微信公衆号“DataFunTalk”。
分享嘉賓:
活動推薦:
關于我們:
DataFun:專注于大數據、人工智能技術應用的分享與交流。發起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100 線下和100 線上沙龍、論壇及峰會,已邀請超過2000位專家和學者參與分享。其公衆号 DataFunTalk 累計生産原創文章700 ,百萬 閱讀,14萬 精準粉絲。
歡迎轉載分享評論,轉載請私信。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!