tft每日頭條

 > 圖文

 > 通俗易懂網絡爬蟲是什麼

通俗易懂網絡爬蟲是什麼

圖文 更新时间:2025-06-06 06:52:43

  著名調查機構Aberdeen Group曾經做過一次調查,結果令人乍舌。

  整個互聯網,網絡爬蟲産生的流量占比高達37.2%!

  通俗易懂網絡爬蟲是什麼(一文看完網絡爬蟲發展史)(1)

  換句話說,每100個互聯網用戶中,隻有63個是實實在在的人類,剩下的流量都是機器人刷出來的。

  有一種說法更可怕,未來互聯網50%以上的流量将是機器人制造出來的。

  在現實世界,人類還在為人工智能威脅而煩惱,但在虛拟世界,機器人所制造的流量,已經可以和人類平分秋色,甚至超過人類。

  每時每刻,爬蟲們都在模仿人類的上網行為,去各種網站上溜達,點點按鈕,查查數據,或者把看到的信息背回來,他們永遠不知道疲倦,循環往複。

  你一定見過驗證碼嗎,它可能長這樣:

  通俗易懂網絡爬蟲是什麼(一文看完網絡爬蟲發展史)(2)

  也可能這樣:

  通俗易懂網絡爬蟲是什麼(一文看完網絡爬蟲發展史)(3)

  或者是這樣子:

  通俗易懂網絡爬蟲是什麼(一文看完網絡爬蟲發展史)(4)

  無論它長什麼樣子,驗證碼隻有一個目的,識别真實的人類用戶。

  打開百度搜索,搜點什麼資料,解決點什麼問題。無意中,你也成為衆多爬蟲使用者中的一員。

  爬蟲,已經遍布在互聯網的每一個角落,影響着每一個人。

  但是,你了解爬蟲的前世今生嗎?

  善良的一面 1994年,在卡内基梅隆大學參加“信息媒體數字圖書館”項目研究的小馬,為了解決這一項目的一些困難,用3頁的代碼量,開發了一個名為Lycos的搜索引擎。

  通俗易懂網絡爬蟲是什麼(一文看完網絡爬蟲發展史)(5)

  Lycos是Lycosidae(一種善于捕捉獵物的狼蛛)的縮寫。

  這個簡陋的搜索引擎,讓小馬看到其背後巨大的商機,于是不久後,Lycos公司正式成立。

  通俗易懂網絡爬蟲是什麼(一文看完網絡爬蟲發展史)(6)

  短短兩年時間,Lycos便成功上市,成為有史以來上市最快的公司。根據Nielsen/NetRatings調查統計機構數據,2002年10月份,Lycos的訪問量高達3700萬,成為全世界訪問量排名第5的網站。

  然而,搜索引擎這塊大蛋糕,終究逃不過群狼競食的命運。

  1995年,也就是在Lycos誕生一年後,斯坦福大學的兩個計算機專業的學生小拉和小謝,開始研究一個叫BackRub的計算機程序。

  通俗易懂網絡爬蟲是什麼(一文看完網絡爬蟲發展史)(7)

  這個程序是利用反向鍊接分析來跟蹤和記錄Internet上的數據的搜索引擎。

  他們立志開發一款強大的搜索引擎,供全世界各地的人們使用,更加方便地從互聯網上獲取信息。

  1998年,小拉和小謝拿出自己的全部家當,再加上母校和舍友的一點資金支持,成立一家名為Google的公司。

  通俗易懂網絡爬蟲是什麼(一文看完網絡爬蟲發展史)(8)

  因為沒有充足的資金保障,他們不得不購買二手的計算機零件,在一個車庫中辦公。

  艱難的創業環境,使小拉和小謝一度想賣掉Google,他們邀請了雅虎、Excite以及其他幾家矽谷公司,希望他們把Google買了,隻可惜當初這些公司隻願意出100萬美元的價格,與他們倆的心理預期嚴重不符,這件事隻得作罷。

  幾乎同一時間,在地球的另一頭,有一個年輕的小夥子小馬,開發了一款名為QQ的聊天軟件,也想把它賣出去,也沒有成功。

  通俗易懂網絡爬蟲是什麼(一文看完網絡爬蟲發展史)(9)

  曆史總是驚人的相似。

  誰也沒想到,這兩家名不見經傳的小公司,會成為互聯網超級巨頭。

  世界的另一頭,在美國呆了8年的小李,看到國内互聯網環境已經成熟,他立即起身回國創業,創辦一家名為百度的公司。

  通俗易懂網絡爬蟲是什麼(一文看完網絡爬蟲發展史)(10)

  至此,谷歌、雅虎、百度三分天下的局面逐漸形成。

  上古時代,那時的互聯網,還是一片賢者雲集的淨土,為了尊重網站的權利,各大搜索引擎通過郵件形式讨論定下了一個君子協議——robots.txt。

  隻要在你的網站根目錄上放上一個robots文件,告訴搜索引擎哪些内容不能抓取,網絡爬蟲就會遵守約定,不抓取這些内容。

  邪惡的一面 随着互聯網的發展, 信息量快速發展,整個網絡世界,充滿着許多很有價值的信息,商品信息、機票信息、個人隐私數據滿天飛。

  一些不法分子從中看到了巨大的利益。

  在利益的誘惑下,這些人開始違反爬蟲協議,編寫爬蟲程序,惡意爬取目标網站的内容。

  曆史上第一件關于爬蟲的官司出現在2000年,eBay将一家聚合價格信息的網站告上法庭。

  通俗易懂網絡爬蟲是什麼(一文看完網絡爬蟲發展史)(11)

  eBay認為自己已經使用robot協議,明确告訴哪些信息不能抓取,哪些信息可以抓取,但這家公司違反了協議,非法抓取商品價格等信息。

  但被告認為,eBay上的用戶數據、以及用戶上傳的商品信息,應屬于用戶集體所有,并不屬于eBay,robot協議無效。

  最終,法院判決eBay勝訴。

  這個案件開啟了爬蟲協議作為主要參考證據的先河。

  如今,爬蟲技術發展迅速,已經出現通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲等類型。抓取目标的方式也很多,例如基于目标網頁特征、基于目标數據模式、基于領域概念等。

  爬蟲技術,無論善意還是惡意,都将常伴在互聯網的身邊,影響網民的分分秒秒。

  ,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved