爬蟲零基礎學習教程-tft每日頭條

爬蟲零基礎學習教程

圖文更新时间:2025-12-03 23:33:10

　　爬蟲零基礎學習教程（爬蟲基礎之爬蟲的基本介紹）(1)

　　大數據時代，各行各業對數據采集的需求日益增多，網絡爬蟲的運用也更為廣泛，越來越多的人開始學習網絡爬蟲這項技術，K哥爬蟲此前已經推出不少爬蟲進階、逆向相關文章，為實現從易到難全方位覆蓋，特設【0基礎學爬蟲】專欄，幫助小白快速入門爬蟲，本期為爬蟲的基本介紹。

　　一、爬蟲概述 爬蟲又稱網絡蜘蛛、網絡機器人，網絡爬蟲按照系統結構和實現技術，大緻可以分為以下幾種類型：

　　通用網絡爬蟲（Scalable Web Crawler）：抓取互聯網上所有數據，爬取對象從一些種子 URL 擴充到整個 Web，主要為門戶站點搜索引擎和大型 Web 服務提供商采集數據，是捜索引擎抓取系統（Baidu、Google、Yahoo 等）的重要組成部分。聚焦網絡爬蟲（Focused Crawler）：抓取互聯網上特定數據，按照預先定義好的主題有選擇地進行網頁爬取的一種爬蟲，将爬取的目标網頁定位在與主題相關的頁面中，選擇性地爬取特定領域信息。增量式網絡爬蟲（Incremental Web Crawler）：抓取互聯網上剛更新的數據，采取增量式更新和隻爬取新産生的或者已經發生變化網頁，它能夠在一定程度上保證所爬取的頁面是盡可能新的頁面，減少時間和空間上的耗費。深層網絡爬蟲（Deep Web Crawler）：表層網頁（Surface Web）是指傳統搜索引擎可以索引的頁面，以超鍊接可以到達的靜态網頁為主構成的 Web 頁面；深層網頁（Deep Web）是指不能通過靜态鍊接獲取的、隐藏在搜索表單後的，隻有用戶提交一些關鍵詞才能獲得的 Web 頁面。在互聯網中，深層頁面的數量往往比表層頁面的數量要多很多。爬蟲程序能模拟浏覽器請求站點的行為，把站點返回的HTML代碼/JSON數據/二進制數據（圖片、視頻、音頻）等爬取到本地，進而提取自己需要的數據，并存放起來使用，每一個程序都有自己的規則，網絡爬蟲也不例外，它會根據人們施加的規則去采集信息，這些規則為網絡爬蟲算法，根據使用者的目的，爬蟲可以實現不同的功能，但所有爬蟲的本質，都是方便人們在海量的互聯網信息中找到并下載到自己要的那一類，提升信息獲取效率。

　　爬蟲采集的都是正常用戶能浏覽到的内容，而非所謂的 ”入侵服務器“，常說高水準者可 ”所見即所得“，意為隻要是能看的内容就能爬取到，希望各位都能達到這個程度~

　　二、爬蟲的用途 現如今大數據時代已經到來，網絡爬蟲技術成為這個時代不可或缺的一部分，企業需要數據來分析用戶行為、自己産品的不足之處以及競争對手的信息等，而這一切的首要條件就是數據的采集。網絡爬蟲的價值其實就是數據的價值，在互聯網社會中，數據是無價之寶，一切皆為數據，誰擁有了大量有用的數據，誰就擁有了決策的主動權。

　　網絡爬蟲目前主要的應用領域如：搜索引擎、數據采集、數據分析、信息聚合、競品監控、認知智能、輿情分析等等，爬蟲業務相關的公司數不勝數，如百度、谷歌、天眼查、企查查、新榜、飛瓜等等，在大數據時代，爬蟲的應用範圍廣、需求大，簡單舉幾個貼近生活的例子：

　　求職需求：獲取各個城市的招聘信息及薪資标準，方便篩選出适合自己的；租房需求：獲取各個城市的租房信息，以便挑選出心儀的房源；美食需求：獲取各個地方的好評美食，讓吃貨不迷路；購物需求：獲取各個商家同一個商品的價格及折扣信息，讓購物更實惠；購車需求：獲取心儀車輛近年的價格波動，以及不同渠道各車型的價格，助力挑選愛車。三、URI 及 URL 的含義 URI（Uniform Resource Identifier），即統一資源标志符，URI（Uniform Resource Location），即統一資源定位符，例如 httl，表示我們訪問 /file/index.html 這個文件；parameters：參數，用來指定訪問某個資源時的附加信息，主要作用就是像服務器提供額外的參數，用來表示本次請求的一些特性，例如 htt取資源，而資源都存儲在某個主機上，所以爬蟲爬取數據時必須要有一個目标的 URL 才可以獲取數據，因此，URL 是爬蟲獲取數據的基本依據，準确理解 URL 的含義對爬蟲學習有很大幫助。

　　四、爬蟲的基本流程發起請求：通過 URL 向服務器發起 Request 請求（同打開浏覽器，輸入網址浏覽網頁），請求可以包含額外的 headers、cookies、proxies、data 等信息，Python 提供了許多庫，幫助我們實現這個流程，完成 HTTP 請求操作，如 urllib、requests 等；獲取響應内容：如果服務器正常響應，會接收到 Response，Response 即為我們所請求的網頁内容，包含 HTML（網頁源代碼），JSON 數據或者二進制的數據（視頻、音頻、圖片）等；解析内容：接收到響應内容後，需要對其進行解析，提取數據内容，如果是 HTML（網頁源代碼），則可以使用網頁解析器進行解析，如正則表達式（re）、Beautiful Soup、pyquery、lxml 等；如果是 JSON 數據，則可以轉換成 JSON 對象進行解析；如果是二進制的數據，則可以保存到文件進行進一步處理；保存數據：可以保存到本地文件（txt、json、csv 等），或者保存到數據庫（MySQL，Redis，MongoDB 等），也可以保存至遠程服務器，如借助 SFTP 進行操作等。五、爬蟲的基本架構 爬蟲的基本架構主要由五個部分組成，分别是爬蟲調度器、URL 管理器、網頁下載器、網頁解析器、信息采集器：

　　爬蟲調度器：相當于一台電腦的 CPU，主要負責調度 URL 管理器、下載器、解析器之間的協調工作，用于各個模塊之間的通信，可以理解為爬蟲的入口與核心，爬蟲的執行策略在此模塊進行定義；URL 管理器：包括待爬取的 URL 地址和已爬取的 URL 地址，防止重複抓取 URL 和循環抓取 URL，實現 URL 管理器主要用三種方式，通過内存、數據庫、緩存數據庫來實現；網頁下載器：負責通過 URL 将網頁進行下載，主要是進行相應的僞裝處理模拟浏覽器訪問、下載網頁，常用庫為 urllib、requests 等；網頁解析器：負責對網頁信息進行解析，可以按照要求提取出有用的信息，也可以根據 DOM 樹的解析方式來解析。如正則表達式（re）、Beautiful Soup、pyquery、lxml 等，根據實際情況靈活使用；數據存儲器：負責将解析後的信息進行存儲、顯示等數據處理。爬蟲零基礎學習教程（爬蟲基礎之爬蟲的基本介紹）(2)

　　六、robots 協議 robots 協議也稱爬蟲協議、爬蟲規則等，是指網站可建立一個 robots.txt 文件來告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取，而搜索引擎則通過讀取 robots.txt 文件來識别這個頁面是否允許被抓取。但是，這個robots協議不是防火牆，也沒有強制執行力，搜索引擎完全可以忽視 robots.txt 文件去抓取網頁的快照。如果想單獨定義搜索引擎的漫遊器訪問子目錄時的行為，那麼可以将自定的設置合并到根目錄下的 robots.txt，或者使用 robots 元數據（Metadata，又稱元數據）。

　　robots 協議并不是一個規範，而隻是約定俗成的，所以并不能保證網站的隐私，俗稱 “君子協議”。

　　robots.txt 文件内容含義：

　　User-agent：*, 這裡的 * 代表的所有的搜索引擎種類，* 是一個通配符Disallow： /admin/, 這裡定義是禁止爬取 admin 目錄下面的目錄Disallow： /require/, 這裡定義是禁止爬取 require 目錄下面的目錄Disallow：/ABC/, 這裡定義是禁止爬取 ABC 目錄下面的目錄Disallow：/cgi-bin/*.htm, 禁止訪問 /cgi-bin/ 目錄下的所有以 .htm 為後綴的 URL(包含子目錄)Disallow:/*?*, 禁止訪問網站中所有包含問号 (?) 的網址Disallow:/.jpg$, 禁止抓取網頁所有的 .jpg 格式的圖片Disallow:/ab/adc.html, 禁止爬取 ab 文件夾下面的 adc.html 文件Allow:/cgi-bin/, 這裡定義是允許爬取 cgi-bin 目錄下面的目錄Allow:/tmp, 這裡定義是允許爬取 tmp 的整個目錄Allow: .htm$, 僅允許訪問以 .htm 為後綴的 URLAllow: .gif$, 允許抓取網頁和 gif 格式圖片Sitemap：網站地圖, 告訴爬蟲這個頁面是網站地圖查看網站 robots 協議，網站 url 加上後綴 robotst.txt 即可，以快代理為例：

　　htt

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

圖文威海小石島景區旅遊攻略圖
威海小石島景區旅遊攻略圖?今天帶大家進入萬綠湖江畔的萬綠湖港豪漁莊，漁莊位于華南第一大人工湖——萬綠湖的廣東省風情小鎮東源縣新港鎮碉樓村這是一家集飲食和住宿于一體的漁莊，酒店就在萬綠湖江畔邊，與萬綠湖東方國際酒店别墅群隔湖相望，信步酒店觀景... 2022-10-07
圖文慕課傳統課堂教學模式
(超星集團主辦的湖南省“數字時代的教學改革”慕課教學研讨會吸引了省内32所高校的800餘名教師參加)紅網長沙6月5日訊（時刻新聞記者周丹）慕課（MOOC）被譽為是“印刷術發明以來教育最大的革新”，是一種新近湧現出來的在線課程開發模式。今天上... 2022-12-12
圖文火鍋店吃活蟲怎麼處理
齊魯網1月15日訊（編輯：劉鳳英萊蕪台張波劉寶）萊蕪市民李先生炸了一盤小魚吃，可吃完後，李先生從那些還沒吃的小魚嘴裡挑出來一些紅色的蟲子。據了解，這些小魚是李先生從信譽樓商廈買來的，買的時候還活蹦亂跳！挑出的小紅蟲李先生告訴記者，自己發現魚... 2022-10-30
圖文梁朝偉為什麼去看擺渡人
2002年，一款取材于武俠小說《流星蝴蝶劍》的同名單機遊戲上線。作為國人耳熟能詳的武俠小說，流星蝴蝶劍在上線之初，便受到了無數玩家的關注。這個安裝包隻有不到1g大小的單機遊戲，卻在當時因為玩法的豐富多樣，成功在網吧占據了一席之地。近日永劫無... 2022-12-19
圖文八十歲婆婆照顧50歲癡傻兒媳
在西安高新區秦渡街道北稻務村，一提起賀丹丹，無人不翹起大拇指，誇一聲真是個“好媳婦”。賀丹丹和丈夫蘇亞君30餘年照顧毫無血緣關系的孤寡殘疾老人李玉連的事迹，體現出中華民族孝老愛親、尊老敬老的傳統美德，是新時代的孝老愛親、尊老敬老的典型事例。... 2022-12-04
圖文童年高爾基文摘
童年高爾基文摘?很多人并不喜歡高爾基的作品，過于枯燥無聊但公平地讀高爾基，确證他是一個不可遺忘的偉大作家像鉛一樣沉重的童年，像雲一樣輕快的童年，因為有了最光輝的形象——外祖母，支持“我”度過最艱難的歲月，下面我們就來聊聊關于童年高爾基文摘?... 2022-10-09
圖文水吧怎麼做營銷手段
1、茶飲市場據前瞻産業研究院發布的《2020年中國新式茶飲市場現狀與發展趨勢分析》數據顯示：2016-2019年，中國現制茶飲市場規模持續快速增長，2019年，中國現制茶飲市場規模(包括傳統奶茶、傳統茶飲、新式茶飲，咖啡現飲，其他鮮榨果汁、... 2022-12-19
圖文劉昊然接梗名場面
在衆多影視劇中，當主演的情感持續升溫時，經常會看到非常甜蜜的一幕：“摸頭殺”，今天小編就盤點了幾位影視劇中的“摸頭殺”，看到最後一張讓人捧腹大笑！在清純勵志偶像劇中就不乏這些鏡頭，在網劇《最好的我們》中，學霸餘淮和學渣耿耿在當同桌的過程中相... 2022-10-27
圖文顔真卿楷書單字高清大圖
《顔勤禮碑》，全稱《唐故秘書省著作郎夔州都督府長史上護軍顔君神道碑》，是顔真卿為其曾祖父顔勤禮所撰并書的神道碑。此碑是顔真卿于大曆十四年（779）撰文并書寫，時年71歲，是其老年成熟之作。從書法上看，此碑用筆之勁健、爽利，已到爐火純青的地步... 2022-11-12
圖文民事訴訟證據的若幹規定最新
2019年10月14日《最高人民法院關于民事訴訟證據的若幹規定》（以下簡稱《若幹規定》）修訂之後，有關舉證期限的規則并不是所有參加民事訴訟的當事人所理解的，甚至連一些律師也不十分關注，應該引起人們的注意。一、起訴或反訴時必須要提供證據由法院... 2023-02-05
圖文天津經濟發展的現狀
這期來講講天津這些年的經濟發展。作為北方最大工業城市的天津，最近幾年的發展也是遇到了一些困難，到底是什麼原因導緻了這種結果，今天就來詳細探讨一下。天津海河夜景首先，天津算是一個重工業和輕工業發展比較均衡的城市，紡織、化工、食品以及大型機械等... 2022-12-22
圖文小魚鈎釣魚的正确方法
天氣多麼熱或者天氣多麼冷，對于釣魚人來說這都不是事。因為我們有屬于釣魚人自己的精神！垂釣是一種樂趣，且老少皆宜。既然是去釣魚，那麼釣友肯定是希望可以釣到魚，這樣臉上有光，也不至于被身邊的人嘲笑，雖然很多人雖然嘴上說釣不釣的到無所謂，這僅僅是... 2022-10-23
圖文冬天湖蟹可以過夜嗎
秋季吃蟹時，不少人開啟了吃蟹狂歡，無論是赤甲紅、梭子蟹還是大閘蟹，這個季節滿足了吃蟹達人的味蕾。不過，在螃蟹中還有一種極品的存在，那就是秃黃油！堪稱拌飯醬中的“愛馬仕”。圖片來源：網絡秃（tēi）黃油，是蘇州的方言，在當地是“隻有”或“獨有... 2022-12-10
圖文石家莊客運站最新消息
石家莊：7個客運站全部恢複運營，今明恢複省際市際市縣客運班線49條為了切實保障省會複工複産及群衆恢複生産生活的出行需求，石家莊公路主樞紐白佛客運站、西王客運站分别于2月23日、24日恢複運營，至此，石家莊市内7個客運站全部恢複運營，今明兩日... 2022-10-23
圖文廣州大學城配鏡實惠
誰說戴眼鏡一定是呆闆木讷的？「CBD高空眼鏡博物館」讓你解鎖眼鏡的N種玩法！開學季，确定不來一副？NO.1PART01-/眼鏡店？我看是網紅打卡地吧/①|CBD高空網紅地在廣州說起“高空眼鏡店”，我第一時間想起壹号眼鏡。藏在天河商圈的高樓裡... 2022-11-14
圖文文化元素主題書店
由《彩圖歐幾裡得幾何原本》創意生發的幾何造型台燈、源自《西方古典音樂故事》的漫畫風格音樂家門神、新春對聯，來自《維特根斯坦與杜尚》的黑白T恤，與《海錯圖愛情筆記》相關的魚形切菜闆、冰箱貼……12月11日下午，上海三聯書店圖書文創新品發布會在... 2022-11-16
圖文孟浩然在什麼地方寫的宿建德江
文/初釀距離湖北襄陽市東南約15公裡處，有一座峻峭挺拔、風景優美的山，名叫鹿門山。傳說漢光武帝劉秀曾來此巡遊，夜裡夢見兩隻梅花鹿，巧的是，他的侍衛習郁也做了同樣的夢。劉秀覺得這是上天的啟示，于是命習郁在山上修建一座寺廟，廟前有石碑，碑上刻着... 2022-12-04
圖文燕麥的營養價值和食用禁忌
燕麥的營養價值和食用禁忌?燕麥又名莜麥屬于禾本科植物，3000多年前我國勞動人民就已經種植現在已經是一種重要的農作物，居谷類的第四位，我來為大家科普一下關于燕麥的營養價值和食用禁忌?以下内容希望對你有幫助!燕麥的營養價值和食用禁忌燕麥又名莜... 2022-10-18
圖文聯想小新pro16首發售價
聯想小新pro16首發售價?在剛剛結束的2022聯想消費生态輕薄新品發布上，聯想小新對小新Air系列、小新Pro系列、小新Pad2022、小新一體電腦Pro系列、小新520智能投影儀以及小新IP周邊等諸多小新生态家族産品進行了全面升級，這些... 2022-10-11
圖文家校攜手金點子
家校攜手金點子?家長群成“加班群”“壓力群”，家庭作業變家長作業，家委會變“後援會”，學校裡，孩子稍有問題，家長會第一時間想到老師、學校有問題，不依不饒，必須“鬥争”到底……很多現實都反映出一個問題：家長與學校之間的責任邊界模糊，導緻家校共... 2022-10-16
圖文多段色悶青色怎麼染教程
白色，灰色，流行色蠟染配方與調色技巧蠟染技巧》》》》》》》》》》》》》》》》》》》》》》》》》白色，灰色，流行色蠟染配方與調色技巧底色要求：8度藍色配方：藍色（088）綠色（022）透明色（000）比例：（藍色）1:（綠色）1:（透明色）1... 2022-12-07
圖文 dior迪奧q版禮盒香水五件套
DiorMen2022春夏推出全新CDDiamond系列手袋，靈感來品牌第三代創意總監MarcBohan1974年設計的典藏「CDDiamond」圖案。新作以深淺對比色呈現「C」和「D」字母組合的菱形圖案，流露出簡約現代風格。DiorMen... 2022-11-05
圖文全世界最值得去的海島
在寒冷的冬季，去熱帶地區旅行是許多遊客的選擇。如今出國旅遊非常方便，不少遊客會選擇東南亞一帶的泰國、馬來西亞等，或者更奢侈一點去馬爾代夫度假。而在我國海南，其實也有頂級的海島，海水清澈風景優美，被譽為中國的“馬爾代夫”。這座小島，就是位于海... 2022-10-30
圖文寫給不是設計師的ps教程
寫給不是設計師的ps教程?我們平常所說的PS，主要是指photoshop軟件在日常工作中，我們越來越多地會用到PS，比如學生的作業圖片打印前就可以PS調整一下在業餘時間，我們完全可以自學一下PS，所謂技多不壓身根據我學習PS的經驗，我會陸續... 2022-10-03
圖文英女王靈柩抵達女兒行禮
據英國天空新聞網13日報道，英國女王伊麗莎白二世的靈柩已從蘇格蘭愛丁堡運抵倫敦白金漢宮。接下來，英女王靈柩将在當地時間14日被轉移至威斯敏斯特宮停留數日，民衆可前往悼念，直至19日舉行葬禮。9月8日，英女王伊麗莎白二世去世，終年96歲。來源... 2022-11-19
圖文雞犬不甯選其一
早晨五點多出門遛狗，在樓下的樹叢裡，發現了一隻雞，看雞的淡定從容，應當是誰家的寵物雞，隻見狗狗先是聽見叫聲，站定側耳細聽，從樹叢裡出來了一隻雞，狗狗像是怕驚擾了小雞一樣，輕輕地湊上去，聞了一下又後退了兩步，雞也不慌，悠然地在道牙上溜達，狗狗... 2022-11-14
圖文烙餅怎麼做又軟又好吃沒有鍋蓋
大家好，不知道大家喜不喜歡吃烙餅。烙餅是一種面食，它的種類有很多，有發面烙餅，有帶餡料的，還有不帶餡的，還有薄片的，千層的，非常多。今天要說的是一種薄皮的烙餅的做法。特點是非常柔軟，吃着筋道不開裂，涼了也不硬。這種除了直接吃以外，還可以卷食... 2022-11-06
圖文 wps繪制流程圖
不知道大家在辦公的時候習慣使用什麼版本的軟件？這幾天小編在繪制流程圖的時候發現一個特别有意思的，你會繪制帶有動态走向的流程圖嗎？不信你看看起來是不是挺高大上的，你知道是怎麼完成的嗎？今天小編大家快速繪制流程圖！剛一打開WPS新建流程圖的時候... 2022-11-15
圖文名偵探柯南中美女排名
名偵探柯南中有很多漂亮的妹子，每一位女角色都有着獨特的性格與魅力，那麼今天我們就來盤點一下名偵探柯南裡的女王們吧~NO.5.小泉紅子小泉紅子在柯南中隻是客串，但是在魔術快鬥中可是主要角色。是紅魔法的繼承人，是真正意義上的女王，在魔術快鬥中，... 2022-11-25
圖文乳腺癌的3個常見早期症狀
乳腺癌是非常危險的一種疾病，不少女性患上乳腺癌，連生命安全也得不到保障，乳腺癌是一種惡性乳腺病變，引起這種情況的因素較多，建議女性多加了解，從而進行相關預防，以免身心健康受到影響。那麼，哪些因素會有誘發乳腺癌呢？誘發乳腺癌的原因都有哪些？1... 2022-12-09

tft每日頭條

> 圖文

> 爬蟲零基礎學習教程

爬蟲零基礎學習教程

相关圖文资讯推荐

热门圖文资讯推荐

网友关注