tft每日頭條

 > 生活

 > 小爬蟲怎麼消滅小竅門

小爬蟲怎麼消滅小竅門

生活 更新时间:2024-07-03 09:49:20

經濟網-中國經濟周刊

9月以來,大數據行業可謂風聲鶴唳。

一時間,魔蠍數據、新顔科技、公信寶、快錢支付、天翼征信等公司先後傳來有人被警方帶走調查的消息。

這令處于大數據風控服務核心的爬蟲技術推上了風口浪尖,大數據行業也迎來了前所未有的“震蕩”。消息稱,被調查或是因為這些公司利用網絡爬蟲技術侵犯個人隐私數據,這些隐私數據的洩露,加劇了暴力催收的泛濫,助長了“套路貸”“高利貸”。

而港股上市公司51信用卡(02051.HK)被警方突擊調查的消息,則為這場風波炸響了一聲“驚雷”。10月21日晚,杭州公安通報稱,51信用卡被突擊調查原因在于,今年9月以來,其委托的外包催收公司冒充國家機關,采取恐吓、滋擾等軟暴力手段催收債務,涉嫌尋釁滋事。

目前,已經有多家大數據風控平台暫停部分服務。大數據行業似乎進入了一個前所未有的“整頓期”。

在近年互聯網金融大潮中,大數據風控供應商一直扮演着重要角色。爬蟲技術也是大數據風控行業的主打産品。“爬蟲”怎麼成了“害蟲”?在互聯網金融風險整治不斷深化的大背景下,大數據風控行業又将何去何從?

事起“爬蟲”業務

網絡爬蟲也叫網絡蜘蛛(spider),是一種自動浏覽網絡的計算機技術,能夠自動化、高效率地檢索互聯網并抓取數據。爬蟲技術也是搜索引擎技術的核心元素之一,經曆了20多年的發展,已經日趨多樣化,在搜索引擎、數據分析、人工智能等領域得到了廣泛應用。

此次風波中的公司大多是國内較早從事大數據風控的服務商,主要為銀行、保險、消費金融公司、貸款機構等提供風控技術解決方案,而其中就包括了爬蟲服務或者基于爬蟲技術而形成的産品。

知名大數據風控平台同盾科技卷入了此次風波。其旗下子公司信川科技的數聚魔盒業務已經停止。公開信息顯示,數聚魔盒主要涉及數據采集流程,支持爬取數據用作信用評估。

“信川科技是同盾科技下屬獨立運營的子公司,旗下的數聚魔盒業務已經停止。”同盾科技相關負責人向《中國經濟周刊》記者介紹,數聚魔盒業務本身對适用條件與場景有嚴格的授權要求與限制,為更加嚴格地保護用戶合法權益,并積極響應國家關于個人信息保護的相關政策,去年公司已經開始主動收縮該業務,今年上半年已完全停止。

而背靠中國電信的天翼征信也傳來被調查的消息。有媒體報道稱,9月12日上午,天翼征信總經理、副經理以下及市場人員,共計十餘人被警察帶走。

天翼征信相關負責人對《中國經濟周刊》記者表示,“我們現在一切都正常,沒有什麼太大問題。未來可能将對客戶進行篩選。我們業務都是合規的,至于行業裡的傳聞也不太好評價。而關于有無人員被帶走調查,對外不做任何回複。”

爬蟲作為一種計算機技術具有中立性,在法律上也從未被禁止,為什麼這些公司會因為爬蟲技術而被調查?

問題的關鍵在于爬取的行為和爬取獲得的數據是否觸及監管紅線是否經過授權?是否過度爬取數據?獲取了哪些數據?是否為獲取數據破壞被爬服務器的防護措施?

前述同盾科技負責人直言,“爬蟲其實是一個中立的技術,但現在可能會有灰色地帶存在。”

小爬蟲怎麼消滅小竅門(爬蟲怎麼成了害蟲)1

插圖:《中國經濟周刊》美編 劉屹钫

“爬蟲”的野蠻生長

在近年來的互聯網金融大潮中,大數據風控服務商扮演着重要角色。

随着互聯網金融興起,非銀行金融機構如P2P、小貸公司、消費金融公司等都試圖掘金傳統征信數據缺失人群。而伴随用戶金融行為進一步線上化,還産生了除工商财稅、水電煤繳費之外的信息,如支付和交易信息、社交大數據信息等等,成為判斷用戶信用水平的重要數據類型。

然而,對于這些機構而言,自身搭建完整的風控系統成本動辄高達數千萬。在此背景下,服務金融機構以及類金融機構的第三方大數據風控公司應運而生。

從這些大數據風控企業的合作體量,就可以看出市場需求的旺盛。公開信息顯示,魔蠍科技已與國内銀行、保險機構、消費金融、互聯網金融等超過2000家客戶合作。新顔科技合作機構2500家以上;數聚魔盒在2019年3月份下線前,合作企業超過10000家。

随着行業的“野蠻生長”,競争日益激烈,一些變異的爬蟲産品也随之出現,涉及竊取、洩露、濫用用戶數據等。

有業内人士向《中國經濟周刊》記者介紹,一些大數據風控服務商為了獲取海量數據,許多非授權隐私數據也會成為爬蟲的目标,甚至用戶手機裡的通訊錄、通訊記錄、電商交易數據、外賣交易記錄等等,要是被盯上,“基本上你就沒什麼秘密了”。

而有些爬蟲技術則采用“多線程爬取”,從而導緻網站癱瘓或不能訪問,這也是大多數網絡攻擊所使用的方法之一。

“去年就一直存在個人隐私信息不斷被洩露,部分金融公司通過各種數據源對用戶數據進行打包出售再加工,嚴重涉及到公民隐私及數據安全的問題。”有業内人士對《中國經濟周刊》記者表示,有的金融公司通過各種數據源對用戶數據進行打包出售再加工,嚴重涉及公民隐私及數據安全問題。去年問題爆發得很明顯,主要集中在消費金融和現金貸兩大業務闆塊。

部分拓展在線零售業務的中小城商行、農商行,也會選擇與第三方大數據風控公司合作,進行數據交叉驗證、豐富風控維度。

在上述業内人士看來,大量第三方數據公司為了獲得銀行業務,會提供大量不同的數據源,很多數據是“非脫敏”數據,“銀行業是一個國家的經濟命脈, 這些數據提供給銀行就會涉及到金融安全問題。”

“即便客戶允許你抓取,也是在這一次審批當中可以用,你把這些數據留存用于其他場景肯定是不對的。”一位不願透露姓名的業内人士對《中國經濟周刊》記者分析,從對個人信息保護的嚴格意義上講,這些數據應當全部銷毀。而部分爬蟲公司并不銷毀曆史上抓取的數據,同時還提供給其他客戶、其他場景使用。

這位業内人士舉例稱,還有一類公司會采用特殊手段規避法律風險,“比如:用戶上傳身份證号碼,征信公司直接顯示用戶每個月納稅金額,這肯定觸犯法律。但他們會規避掉法律風險,用數據标簽給用戶的納稅金額打分,比如繳稅1萬元的人就是5分,1萬元以下的就是3分。”

劍指爬蟲,意在數據

随着強監管信号的不斷釋放,“野蠻生長”的大數據爬蟲時代或将結束。在不少業内人士看來,本次整頓也是一個行業淨化、洗牌的過程,有利于整個行業更加健康、規範發展。

今年5月28日,國家互聯網信息辦公室發布了《數據安全管理辦法(征求意見稿)》(下稱“《管理辦法》”),用部門立法的方式對互聯網數據收集、數據處理使用,都做了明确的界定。

《管理辦法》第十六條規定,“網絡運營者采取自動化手段訪問收集網站數據,不得妨礙網站正常運行;此類行為嚴重影響網站運行,如自動化訪問收集流量超過網站日均流量三分之一,網站要求停止自動化訪問收集時,應當停止。”

在北京大成律師事務所執業律師、北京網貸協會法律顧問肖飒看來,沒有授權的爬蟲就一定是違法的,需要重點整治。現在的關鍵是如何面對這些看似“合法”的爬蟲,重中之重就是運營商做到用戶授權鍊的完整,明晰完整的授權鍊,做到源頭控制。總的來說,應當盡快制定完善針對網絡爬蟲的數據安全法律法規,将網絡爬蟲引向合法軌道。若是違法進行網絡爬蟲,就要重拳出擊,加大懲罰力度和偵查力度,涉及刑事犯罪的要重點處理。

然而,過去一個多月的行業“震蕩”昭示着,針對大數據風控行業的強監管才剛剛開始。

10月24日,有報道稱,央行日前發文緊急調研銀行與第三方數據公司合作情況。其中,銀行需排查的内容主要涉及數據采集、信用欺詐、信用評分、風控建模等方面。央行還要求各企業征信機構排查自身業務中是否存在違規爬蟲行為。央行表示,如存在上述情況,請立即上報,對于存在違規爬蟲業務的要立即整改。如不存在上述情況的,請出具加蓋公章的書面承諾函,并于10月24日前送至央行征信管理處。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved