對于很多對于不懂編程語言的GGMM來說,爬蟲技術高深莫測。但是對于IT工程師來說,爬蟲技術可以說信手拈來。雖然熟知爬蟲技術,你是否知道它竟然可以做這麼多這麼牛逼哄哄的事情!
1.利用爬蟲技術抓取公司用戶信息
公司有15k員工,辦公系統的hr模塊,隻要有部門級的管理人員權限就可以看自己部門的幾百名員工資料,包括曆年曆月的工資條和具體個人信息。關鍵是,網頁地址上有員工編号,如果改一下編号理論上就可以看到部門之外的任意員工資料,包括老總的(老總的編号很普通,并不是想當然的100001)。如果搞個爬蟲,想泡妞的人估計就有福氣了,呵呵。
2011年夏天,我在google實習的時候做了一些Twitter數據相關的開發,之後我看到了一篇關于利用Twitter上人的心情來預測股市的論文。實習結束後,我跟幾個朋友一起商量,看看能不能一起做做Twitter的數據挖掘。于是寫了個爬蟲玩玩,讓Wimbledon意想不到的是,最後開發了兩年多,抓取了7一千多用戶的400億條tweet。
2.分析網站用戶,預測美女
爬了某網站12萬用戶的頭像,把長得像的頭像放在一起。然後搜集了知友們的點擊,預測出來這是你們(平均)最喜歡的人長的樣子。然後根據點擊數據訓練出來了一個帶逛機器人,可以自動識别美女。
爬蟲技術可以抓取到淘寶天貓京東訂單頁的數據,不過你需要具備特别的抓取技巧,這其中,最難的是如何繞過或者說擊敗淘寶和京東的安全策略以及反爬蟲策略!而且淘寶和京東貌似叠代很快,三五天就一個新版本。需要持續維護這個爬蟲。總之,隻要你的爬蟲夠人性化就可以。沒有抓不到的數據,隻有不努力的爬蟲,不過需要注意的是,,淘寶京東這種都是有專門的反爬蟲部門的。
3.網絡爬蟲技術在商業銀行的應用
對商業銀行而言,網絡爬蟲技術的應用将助力商業銀行實現四個“最了解”,即“最了解自身的銀行”、“最了解客戶的銀行”、“最了解競争對手的銀行”和“最了解經營環境的銀行”,具體應用場景如下。包括網絡輿情監測、客戶全景畫像、競争對手分析、行業垂直搜索。
其中客戶全景畫像指的是網絡爬蟲系統對客戶相關信息進行實時采集、監測、更新,不僅可以更全面地了解客戶實時情況,而且可以對客戶的潛在營銷商機和信用風險進行預判,有效提升客戶營銷和貸後風險管理效率,提升商業銀行綜合效益,形成銀行與客戶共赢的局面。
4.用“爬蟲”技術竊小說供人閱覽
有這樣一個案例,用“爬蟲”技術,福建籍任曉錦等5人事先把多個小說網站的鍊接存在服務器上,當手機用戶登錄APP,搜索相關小說時,搜索需求就會迅速反饋到服務端,并通過軟件“抓取”小說網站的數據傳送到客戶端,供用戶閱讀或下載。不用花費一分錢版權費,任曉錦等非法獲取各類小說達5000部以上。不過利用“爬蟲”技術竊小說供人閱覽,這是違法行為,最終這5人被繩之于法。鑒于此種行為危害較大,各位程序員還是且行且珍惜。
這些爬蟲技術的運用,很多都是違法的哦,各位程序員們還是需要謹慎。其實爬蟲技術還可以做很多更加牛逼哄哄的事情,鑒于小編水平有限,歡迎大家來補充!
公衆号:w3c技術教程
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!