通俗易懂網絡爬蟲是什麼-tft每日頭條

通俗易懂網絡爬蟲是什麼

圖文更新时间:2026-07-22 01:26:41

　　著名調查機構Aberdeen Group曾經做過一次調查，結果令人乍舌。

　　整個互聯網，網絡爬蟲産生的流量占比高達37.2%！

　　通俗易懂網絡爬蟲是什麼（一文看完網絡爬蟲發展史）(1)

　　換句話說，每100個互聯網用戶中，隻有63個是實實在在的人類，剩下的流量都是機器人刷出來的。

　　有一種說法更可怕，未來互聯網50%以上的流量将是機器人制造出來的。

　　在現實世界，人類還在為人工智能威脅而煩惱，但在虛拟世界，機器人所制造的流量，已經可以和人類平分秋色，甚至超過人類。

　　每時每刻，爬蟲們都在模仿人類的上網行為，去各種網站上溜達，點點按鈕，查查數據，或者把看到的信息背回來，他們永遠不知道疲倦，循環往複。

　　你一定見過驗證碼嗎，它可能長這樣：

　　通俗易懂網絡爬蟲是什麼（一文看完網絡爬蟲發展史）(2)

　　也可能這樣：

　　通俗易懂網絡爬蟲是什麼（一文看完網絡爬蟲發展史）(3)

　　或者是這樣子：

　　通俗易懂網絡爬蟲是什麼（一文看完網絡爬蟲發展史）(4)

　　無論它長什麼樣子，驗證碼隻有一個目的，識别真實的人類用戶。

　　打開百度搜索，搜點什麼資料，解決點什麼問題。無意中，你也成為衆多爬蟲使用者中的一員。

　　爬蟲，已經遍布在互聯網的每一個角落，影響着每一個人。

　　但是，你了解爬蟲的前世今生嗎？

　　善良的一面 1994年，在卡内基梅隆大學參加“信息媒體數字圖書館”項目研究的小馬，為了解決這一項目的一些困難，用3頁的代碼量，開發了一個名為Lycos的搜索引擎。

　　通俗易懂網絡爬蟲是什麼（一文看完網絡爬蟲發展史）(5)

　　Lycos是Lycosidae（一種善于捕捉獵物的狼蛛）的縮寫。

　　這個簡陋的搜索引擎，讓小馬看到其背後巨大的商機，于是不久後，Lycos公司正式成立。

　　通俗易懂網絡爬蟲是什麼（一文看完網絡爬蟲發展史）(6)

　　短短兩年時間，Lycos便成功上市，成為有史以來上市最快的公司。根據Nielsen/NetRatings調查統計機構數據，2002年10月份，Lycos的訪問量高達3700萬，成為全世界訪問量排名第5的網站。

　　然而，搜索引擎這塊大蛋糕，終究逃不過群狼競食的命運。

　　1995年，也就是在Lycos誕生一年後，斯坦福大學的兩個計算機專業的學生小拉和小謝，開始研究一個叫BackRub的計算機程序。

　　通俗易懂網絡爬蟲是什麼（一文看完網絡爬蟲發展史）(7)

　　這個程序是利用反向鍊接分析來跟蹤和記錄Internet上的數據的搜索引擎。

　　他們立志開發一款強大的搜索引擎，供全世界各地的人們使用，更加方便地從互聯網上獲取信息。

　　1998年，小拉和小謝拿出自己的全部家當，再加上母校和舍友的一點資金支持，成立一家名為Google的公司。

　　通俗易懂網絡爬蟲是什麼（一文看完網絡爬蟲發展史）(8)

　　因為沒有充足的資金保障，他們不得不購買二手的計算機零件，在一個車庫中辦公。

　　艱難的創業環境，使小拉和小謝一度想賣掉Google，他們邀請了雅虎、Excite以及其他幾家矽谷公司，希望他們把Google買了，隻可惜當初這些公司隻願意出100萬美元的價格，與他們倆的心理預期嚴重不符，這件事隻得作罷。

　　幾乎同一時間，在地球的另一頭，有一個年輕的小夥子小馬，開發了一款名為QQ的聊天軟件，也想把它賣出去，也沒有成功。

　　通俗易懂網絡爬蟲是什麼（一文看完網絡爬蟲發展史）(9)

　　曆史總是驚人的相似。

　　誰也沒想到，這兩家名不見經傳的小公司，會成為互聯網超級巨頭。

　　世界的另一頭，在美國呆了8年的小李，看到國内互聯網環境已經成熟，他立即起身回國創業，創辦一家名為百度的公司。

　　通俗易懂網絡爬蟲是什麼（一文看完網絡爬蟲發展史）(10)

　　至此，谷歌、雅虎、百度三分天下的局面逐漸形成。

　　上古時代，那時的互聯網，還是一片賢者雲集的淨土，為了尊重網站的權利，各大搜索引擎通過郵件形式讨論定下了一個君子協議——robots.txt。

　　隻要在你的網站根目錄上放上一個robots文件，告訴搜索引擎哪些内容不能抓取，網絡爬蟲就會遵守約定，不抓取這些内容。

　　邪惡的一面 随着互聯網的發展，信息量快速發展，整個網絡世界，充滿着許多很有價值的信息，商品信息、機票信息、個人隐私數據滿天飛。

　　一些不法分子從中看到了巨大的利益。

　　在利益的誘惑下，這些人開始違反爬蟲協議，編寫爬蟲程序，惡意爬取目标網站的内容。

　　曆史上第一件關于爬蟲的官司出現在2000年，eBay将一家聚合價格信息的網站告上法庭。

　　通俗易懂網絡爬蟲是什麼（一文看完網絡爬蟲發展史）(11)

　　eBay認為自己已經使用robot協議，明确告訴哪些信息不能抓取，哪些信息可以抓取，但這家公司違反了協議，非法抓取商品價格等信息。

　　但被告認為，eBay上的用戶數據、以及用戶上傳的商品信息，應屬于用戶集體所有，并不屬于eBay，robot協議無效。

　　最終，法院判決eBay勝訴。

　　這個案件開啟了爬蟲協議作為主要參考證據的先河。

　　如今，爬蟲技術發展迅速，已經出現通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲等類型。抓取目标的方式也很多，例如基于目标網頁特征、基于目标數據模式、基于領域概念等。

　　爬蟲技術，無論善意還是惡意，都将常伴在互聯網的身邊，影響網民的分分秒秒。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

圖文關關難過下一句是什麼
這些年一路走來，一步一個教訓，承蒙歲月不棄，一身傷一身債，還剩半條命。城南以南不再藍，城北以北不再美，城中從此不再擠，從此心中再無你。城東皆已空，城西以西不再喜，終究莊周夢了碟，你是恩賜也是劫，南牆已撞，故事已忘，愛過恨過，皆成經過。語文老... 2023-02-12
圖文北京公交線路暫停運營
北京公交線路暫停運營?人民網北京6月20日電據北京公交網站消息，近期，因疫情防控工作需要，應北京一些周邊縣市的要求，北京公交集團對部分跨省公交線路采取暫停運營或調整運營區間等措施，以下為具體通告，我來為大家科普一下關于北京公交線路暫停運營?... 2022-12-24
圖文湯臣一品哪棟房最好
前不久寫到金山大名城紫金九号的文章發表後有房托罵罵咧咧，說房子買得貴是人家願意，那架勢恨不能捂别人的嘴，就怕别人戳破實情。既然如此，我們不妨做個探讨，高溢價買房到底是不是個問題？應該說得出的結論是因人而異。對于那些不差錢的富人而言，人家随随... 2023-03-21
圖文斯德哥爾摩症不是你想象的那樣
斯德哥爾摩症不是你想象的那樣?來源：環球時報香港《亞洲周刊》11月24日（提前出版）文章，原題：香港的斯德哥爾摩症候群，我來為大家科普一下關于斯德哥爾摩症不是你想象的那樣?以下内容希望對你有幫助!斯德哥爾摩症不是你想象的那樣來源：環球時報香... 2022-10-05
圖文魔獸世界為啥能火這麼久
背景交待：11年的時候，小編的老闆不知那根筋抽了一下，突發奇想的想從魔獸世界的私服（主供台灣）裡撈錢，當時身兼數職的小編好不容易的找來了幾個”資深“玩家，大價錢的買來商家版服務器，請來了1位程序員，進行了内容修改完善，之後還模有樣的搭建起了... 2022-11-26
圖文增廣賢文講人情世故句子
人情世故是中國文化之精髓，指為人處世的方法、規則、體系、禮儀、講究，早先來源于文天祥《送僧了敬序》中＂姑與之委曲于人情世故之内＂一句，是說隻講原則不懂策略的人是吃不開的，盡管人情世故沒有道理，但像文天祥這樣的人也要忍受并為之妥協。中國是人情... 2022-11-03
圖文日常底妝怎麼化才顯得幹淨細膩
基礎底妝需要哪些東西本文摘要：底妝的正确步驟又有哪幾步和基礎底妝需要哪些東西方面的知識！說起來呀，化妝是個值得探讨的話題，而在化妝時，基礎底妝要做好，不然後續的效果可能差強人意甚至慘不忍睹！首先需要了解基礎底妝需要哪些東西，繼而來了解底妝的... 2022-11-23
圖文移動高頻防騷擾服務怎麼開通
移動高頻防騷擾服務怎麼開通?如今互聯網幾乎在每個角落都會用到我們的手機号碼隐私信息，而你又不知道它在什麼時候什麼地方被洩露過，以緻于每天都會收到大量的垃圾廣告/詐騙/騷擾電話，簡直煩得要死，接下來我們就來聊聊關于移動高頻防騷擾服務怎麼開通?... 2022-10-13
圖文老東北美食
作者：FC美食煮意用料大白菜5片凍豆腐150克豬肉100克蔥花少許食用油1勺鹽少許雞精少許生抽少許胡椒粉少許水适量做法步驟1、大白菜用水清洗幹淨2、切成長條備用3、凍豆腐化開後擠幹水分備用4、豬肉切成薄片備用5、鍋裡倒入少許食用油燒熱，放入... 2022-11-30
圖文如何正确選擇适合自己的防曬
夏天來了，又到高度警戒紫外線的時候了。紫外線的武力值在夏天到達了巅峰，一邊光明正大地把你曬黑，一邊偷偷摸摸地把你曬老。曬黑還好，秋冬捂一捂就白了。曬老，那就不能忍了，這可不是捂一捂就能解決的事。因此防曬霜，就成為很多人重點關注的護膚品了。如... 2023-01-16
圖文魯豫參觀楊麗萍月亮宮
明星們在掙得盤滿缽滿的同時，就開始享受生活，明星們紛紛開始購買豪宅，這些也都是見怪不怪的事情了。不過，有些明星真的是很壕，在小島上建立自己的家，仿佛世外桃源，有山有水，重要的是能夠享受大自然的恩賜。其中，“孔雀皇後”楊麗萍在小島上建造的“太... 2022-12-03
圖文羅森便利店一日三餐
羅森便利店一日三餐?近來，虹口區四平路411号出現了一家全新的店鋪“BK24”，它的前身是一家普通的良友便利店，下面我們就來聊聊關于羅森便利店一日三餐?接下來我們就一起去了解一下吧!羅森便利店一日三餐近來，虹口區四平路411号出現了一家全新... 2022-10-13
圖文中華民族華表的由來簡介
歡迎關注《寫乎》，您的足迹就是《寫乎》！推薦：什麼叫纨绔子弟，看看《紅樓夢》裡賈赦的所作所為就明白了文/陶冶【作者簡介】陶冶，家住沈陽，喜愛攝影。文章散見于在《自強文苑》《千高原》《閱讀悅讀》等刊物與網絡媒體發表。【本文由作者授權發布】小編... 2022-10-31
圖文亞光磚裝修風格
今天分享一組暖色地磚的應用，比起全屋灰色感覺清爽很多。有人會問是不是微水泥？實景是真的是淺灰亮的光磚。剛開始裝修，害怕亮光磚過時，又土又醜？又擔心柔光磚衛生不好做！想來想去，還是選擇了好做衛生的那種！結果裝修效果真的有被驚喜到吧！特意去實拍... 2022-12-10
圖文送你一輪明月代表什麼意思
送你一輪明月代表什麼意思?含義是：為别人的生活帶來光亮，使小偷改過自新，以嶄新的面貌，迎接未來的光明這是一種隐形而又寶貴的情感，接下來我們就來聊聊關于送你一輪明月代表什麼意思?以下内容大家不妨參考一二希望能幫到您!送你一輪明月代表什麼意思含... 2022-10-15
圖文田震和那英再度同台
傳媒櫻桃派系【頭條理娛君】特約作者，看娛樂熱點深度解讀，認準理娛君！說到内地流行歌壇，田震和那英是兩個繞不過去的名字。不同于那英如今已經乘風破浪，田震則一度淡出了公衆視線。12月9日晚，56歲的田震留着招牌的長直發亮相《時光音樂會2》，用一... 2023-02-20
圖文重慶市内環高速公路大霧情況
重慶市内環高速公路大霧情況?今日，上遊新聞從@重慶交通12122獲悉，截至1月28日08時00分，因大霧管制的路段有：，我來為大家科普一下關于重慶市内環高速公路大霧情況?下面希望有你要的答案，我們一起來看看吧!重慶市内環高速公路大霧情況今日... 2022-12-11
圖文花型獨特花期長
#養老有道#（一）紅色報春花入冬後，街道兩旁的花壇換上了紅色的報春花，引人注目。紅色的花瓣顔色鮮豔豔的，讓人不禁就想到春天的姹紫嫣紅；黃色的花心金燦燦，像黑色天幕上明亮的星星。雖然低矮匍匐于地面，即使種在路邊難免蒙塵，它依然燦爛開放，給寒風... 2022-11-08
圖文儲電難點在哪裡
儲電難點在哪裡?澎湃财訊全球綠色能源理事會主席、協鑫集團董事長朱共山9月1日在太原能源低碳發展論壇上表示，去年至今，燃料價格暴漲，5000大卡的煤炭在江蘇的到岸價一度高達1200元/噸，煤電成本接近5毛錢，天然氣價格最高時接近8塊錢每方，燃... 2022-10-28
圖文張家界天門山森林公園雪景
張家界天門山森林公園雪景?随着新一輪寒潮來襲，湖南張家界氣溫大幅降低今天，張家界大雪紛飛，迎來新年首場降雪，天門山成為了銀裝素裹的冰雪世界（通訊員丁雲娟記者丁鵬志視頻/譚鵬波宋莉莉圖/覃少波劉金文），現在小編就來說說關于張家界天門山森林公園... 2022-10-15
圖文全球首富的兒子是誰
全球首富的兒子是誰?為什麼王思聰會那麼紅，而且時不時上熱搜榜？我們來分析一下：，接下來我們就來聊聊關于全球首富的兒子是誰?以下内容大家不妨參考一二希望能幫到您!全球首富的兒子是誰為什麼王思聰會那麼紅，而且時不時上熱搜榜？我們來分析一下：1.... 2022-10-15
圖文什麼地方産的金絲皇菊好
什麼地方産的金絲皇菊好?九江新聞網訊（九江日報全媒記者陳沽玥）近日，國家知識産權局官網發布公示，我市“修水金絲皇菊”地理标志證明商标入選國家知識産權局第一批地理标志運用促進重點聯系指導名錄全國上榜的共有160個地理标志，我省僅有4個，現在小... 2023-02-12
圖文廣昆高速六景至興業段将施工
廣昆高速六景至興業段将施工?關于在G80廣昆高速公路興業至六景段繼續，今天小編就來聊一聊關于廣昆高速六景至興業段将施工?接下來我們就一起去研究一下吧!廣昆高速六景至興業段将施工關于在G80廣昆高速公路興業至六景段繼續實施限制交通措施的通告因... 2022-10-10
圖文女性心理解壓的最好方法
心理上的煩躁可以通過身體上的鍛煉排除掉，當你感到煩躁、焦慮、壓力山大的時候，不妨嘗試幾種鍛煉方法吧!(1)練瑜伽：更自信。研究發現，每周3次，每次1小時的瑜伽可以提高體内神經傳遞物質的水平，緩解焦慮，使人自信。每天在家中練習10分鐘即可。瑜... 2022-10-21
圖文布依族是少數民族嗎
布依族是少數民族嗎?布依族主要分布在貴州、雲南、四川等省，其中以貴州省的布依族人口最多，占全國布依族人口的97%主要聚居在黔南和黔西南兩個布依族苗族自治州，以及安順市、貴陽市、六盤水市，其餘各市、州、地均有散居，接下來我們就來聊聊關于布依族... 2022-10-28
圖文為什麼那麼多人喜歡華晨宇
在未婚生女風波後，華晨宇還能在央視晚會上出現，有網友猜測華晨宇背後的力量太過強大，但這種猜測也是早就在華晨宇進入娛樂圈時一直吹的風。華晨宇，1990年出生湖北，母親是一個音樂人，父親則是商人，據爆料華晨宇爸爸華福雄，是做貴金屬生意的，财力雄... 2023-01-20
圖文電影倩女幽魂哪個版本最好看
電影倩女幽魂哪個版本最好看?1987年7月18日，《倩女幽魂：妖魔道》在香港上映上映後先後獲得第16屆法國科幻電影節評審團特别獎、葡萄牙科幻電影節最佳電影大獎、第24屆台灣電影金馬獎最佳改編劇本等獎項，現在小編就來說說關于電影倩女幽魂哪個版... 2022-10-13
圖文衛生棉條和姨媽巾的使用
轉帖不知道你們的小腦袋瓜子裡都在想啥（是來正經科普的）就在學妹這聰明的小腦袋瓜子為今天的情報作業苦惱的時候（555，多希望有粉絲能看穿我的逞強）突然，一束正道的光亮了起來▼看到這個問題，學妹就已經開始難受了不得不說，做女生真的太太太難了！！... 2022-11-17
圖文維金斯今年季後賽扣籃集錦
維金斯今年季後賽扣籃集錦?直播吧6月15日訊昨日NBA總決賽G5，勇士戰勝凱爾特人，總決大比分3-2領先，下面我們就來說一說關于維金斯今年季後賽扣籃集錦?我們一起去了解并探讨一下這個問題吧!維金斯今年季後賽扣籃集錦直播吧6月15日訊昨日NB... 2022-10-13
圖文速凍的大蝦如何保存
怎樣保存新鮮大蝦？直接冷凍就錯了，老漁民教你一招，久放也新鮮生活水平越來越高，各種魚肉、海鮮等等都端上了人們的餐桌，大家對“吃”這一方面的追求越來越高了。現在正是鮮蝦大量上市的時候，市面上賣蝦的人逐漸多了起來，鮮活的蝦被人們争相購買，成為了... 2022-10-20

tft每日頭條

> 圖文

> 通俗易懂網絡爬蟲是什麼

通俗易懂網絡爬蟲是什麼

相关圖文资讯推荐

热门圖文资讯推荐

网友关注