程序員吐槽段子-tft每日頭條

程序員吐槽段子

生活更新时间:2025-11-18 05:01:33

最近一直在學習網絡爬蟲，從最開始的用urllib2 bs4模塊一行一行寫爬蟲，到現在掌握scrapy爬蟲框架，再到學習如何破解反爬蟲，對網絡爬蟲有了基本的了解。今天看糗百段子，突然想起以前想看段子而手機流量又不夠的時候想着有一天能在家裡把段子下載到手機上離線看就好了。現在學了爬蟲，感覺願望可以實現了。于是今天就以爬取糗事百科搞笑段子為例，對之前的學習做個總結。

這個例子還是基于python，用的scrapy框架。爬取搞笑段子原理其實很簡單：打開糗事百科，找到入口url（每一頁為一個入口），然後遍曆所有網頁，獲取搞笑段子信息保存到本地文件中。

程序員吐槽段子（程序員通過網絡爬蟲獲取糗事百科搞笑段子）1

首先打開糗事百科頁面，我準備爬取純文字和熱圖兩個分類。觀察兩個分類每一頁url有如下特征：

如此可以通過第一個url和一個for循環構建出剩下的所有url。

知道如何構建入口url後，觀察下頁面的html源碼，每個段子的作者、内容等信息可以用xpath很容易的提取出來。如：作者=‘//div[@class="article"]//h2/text()’; 内容='//div[@class="article"//span/text()]'

程序員吐槽段子（程序員通過網絡爬蟲獲取糗事百科搞笑段子）2

經過以上分析後，剩下的就是寫代碼實現了。為了快速爬取又不被反爬蟲機制發現，這裡使用了代理ip機制，主要代碼貼上來

這段代碼是用python重寫scrapy中間件，主要實現下面兩個功能：

改寫user-agent, 破解基于user-agent原理的反爬蟲機制
每次請求都從代理ip池中随機拿一個來用，這樣請求間隔就可以設置的非常短，爬取速度變快而不用擔心ip被封禁了。說明下alive.txt中的内容是上篇文章中爬取到的代理ip并被驗證為有效的代理ip

程序員吐槽段子（程序員通過網絡爬蟲獲取糗事百科搞笑段子）3

這段代碼是pipelines.py，用來把爬取到的段子信息保存到本地的txt文檔裡，其中圖片會下載到IMG目錄下

程序員吐槽段子（程序員通過網絡爬蟲獲取糗事百科搞笑段子）4

下面代碼是爬蟲的實現，主要是通過url獲取到網頁html，然後通過xpath提取出搞笑段子

程序員吐槽段子（程序員通過網絡爬蟲獲取糗事百科搞笑段子）5

主要的實現就是這樣的，寫出來供大家參考，我最終爬取出來的結果是這樣的：

這格式純文字的爬取結果：

程序員吐槽段子（程序員通過網絡爬蟲獲取糗事百科搞笑段子）6

這個是熱圖的爬取結果，圖片都保存在同級目錄下的IMG目錄下

程序員吐槽段子（程序員通過網絡爬蟲獲取糗事百科搞笑段子）7

寫這篇文章的目的是對前端時間學習有個總結，同時期望自己的些許經驗能讓正在學習爬蟲的朋友有個參考

歡迎轉載！

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活江蘇無錫錫山區建設規劃
惠山新城、江陰徐霞客休閑旅遊度假區和青陽鎮區為錫澄協同發展區啟動區，宜興周鐵鎮、大拈花灣、馬山街道為錫宜協同發展區啟動區。昨從市自然資源和規劃局獲悉，備受關注的錫澄、錫宜協同發展區規劃編制完成，不僅明确了目标定位、空間格局，還劃定了率先啟動... 2023-01-14
生活适合夏天用的防曬霜推薦
現在能用的防曬霜蠻多呢但是還有姐妹踩坑#防曬霜#防曬分享#軍訓防曬, 2023-01-14
生活處女座什麼最配對
說明（不限于情侶關系）：-合拍組合：氣場風格和行為習慣相似，容易互相理解。-互補組合：你不會的TA會，TA不擅長的你行，正好互相支持，但需要磨合。-随緣組合：通常交集會少一些，但可能因為不尋常的機緣而相會。-挑戰組合：差異會比較大，需要一起... 2022-12-06
生活雞蛋肉餅湯怎麼做鮮甜
剛從南昌回來，雖然很坑不會再去第二次，但是美食很無辜啦～好吃的學起來～這裡隻是嘗味道揣測的菜譜，親們可以自己嘗試哦！難度：切墩(初級)時間：30~60分鐘主料五花肉醬油雞精皮蛋一個皮蛋肉餅湯出乎意料好喝的做法步驟1.剛開始看菜單真心不敢點，... 2023-02-28
生活修真界敗類女主角背叛在第幾章
《修真界敗類》這本小說可能前面寫的有點太過了，所以影響了很多讀者的閱讀心情，好多人給予了差評，但是這本書越往後面寫的越精彩，而且非常的活躍氣氛，看了之後絕對治療各種高冷病患者，看書看的是什麼，就是無聊打發時間，還有精彩内容，這本書裡體現的淋... 2022-12-29
生活涼拌西葫蘆怎麼調才好吃
嗨@大家好！我是“小貓愛廚房”的小貓，今天又和大家見面了，分享生活、分享美食、分享快樂！今天小貓繼續給大家分享低脂涼拌菜，今天給大家的帶來的是一道用西葫蘆制作的拌菜，口感脆爽，香辣的味道中略帶甜味，是一道特别開胃下飯的菜，大家要是喜歡吃涼拌... 2023-01-19
生活優速快遞當天郵寄沒有更新信息
某分撥搬遷停線一、一次鬧劇般的搬遷分撥搬遷通知或者出于成本，或者出于其他原因，某網絡将某分撥撤掉，搬遷至相鄰的兩個分撥，直接導緻100多人失業。有人拉橫幅，有人找記者，有人痛斥網絡無情無義。從網絡整合的那天開始，很多事情就已經無可避免了。對... 2023-03-21
生活探究時間與什麼因素有關
很長一段時間裡，物理學家們都在思考這樣的問題“是時間的流逝而導緻事件的發生，還是因為事件的發生才有了時間的流逝”？很多人會不假思索的就給出答案認為:在時間流逝的大前提下，事件才會得以進行，這正确嗎？但事實上卻完全相反，時間應是在事件發生過程... 2023-01-21
生活松江9月份二手房最新價格表
松江9月份二手房最新價格表?房天下研究院公布了5月第4周（5.18-5.24）松江熱搜小區排名，數據顯示，5月第4周（5.18-5.24）松江二手房小區熱搜榜第一名是新虹橋首府，排在第二位的是世茂佘山莊園、知雅彙、泰晤士小鎮、保利西子灣、奧... 2023-03-29
生活制冰機跟自己做冰有什麼不一樣
冰鎮永遠是夏天永恒不變的絕佳拍檔，早晨一杯冰拿鐵，下午一杯冰美式，晚上一瓶冰啤酒，如果碰巧有哥們來喝酒，冰塊的數量就成為制約我們能否喝爽的很重要的因素。目前兩種制冰方案，一是買冰格自己凍，二是我身後的這種小型制冰機，這期内容為自費購入，所以... 2023-02-06
生活第一次敷這麼薄這麼服帖的面膜
蘋果番茄美白面膜材料：蘋果1個，番茄1個，珍珠粉3克第一步：将蘋果去皮，搗成果泥，敷于臉部，稱為蘋果面膜。每日一次，20分鐘後用清水洗淨.第二步：将鮮番茄搗爛，調入少許珍珠粉增加黏性，敷于面部，稱為番茄膜。每日一次，20分鐘後用清水洗去。祛... 2022-11-23
生活光動力治療痤瘡是什麼原理
光動力治療痤瘡是什麼原理?光動力痤瘡療法，又稱：艾拉光動力治療痤瘡、艾拉治療痤瘡、光動力祛痘、光動力治療青春痘、光動力治療痤瘡系統、光動力療法治療痤瘡，在臨床應用中，使用上海複旦張江生物醫藥股份有限公司研發生産的艾拉（ALA，5-氨基酮戊酸... 2023-02-20
生活戴森吸塵器哪種型号最好
春節在家宅了快一個月，很多小夥伴複工回到宿舍後，發現哪裡都是厚厚的灰塵，隻好卷起袖子，奮力的打掃衛生。可上班才沒過幾天，家中地闆開始有明顯的鞋印，而且很多地方一吹又有塵，前幾天的辛苦清掃和沒有一樣。我知道有很多小夥伴和我一樣懶，于是花了大錢... 2023-02-14
生活冷吃兔的經典做法
#家庭美食大賞#終于有時間給家人做點好吃的了，無意中看到了冷吃兔，之前朋友做了一次，分享了給我一些，我朋友做的真的是香，麻，辣，酥，好吃的不擺了。我特地問他要到的秘籍。[機智][機智][機智]【冷吃兔】原料：新鮮兔兔一隻（南方的朋友，可以讓... 2023-01-13
生活巨蟹座适合什麼人在一起
巨蟹座：善于溝通的人巨蟹座人，是水象星座。這個配對真的不太合，兩人相處起來常常水深火熱，沒有其他什麼溝通之類的，長時間就會發火就會發生一些不必要的矛盾。兩個人不太合适，但是巨蟹性格說真的還是蠻有魅力的，讓人頗為眷戀，作為他們的愛人，常常會被... 2022-12-07
生活增城小吃街哪裡比較好
廣州增城增江省級碧道試點（資料圖）增城區政府新聞辦供圖中新網廣州6月29日電題：廣州增城省級碧道成新晉休閑“打卡點”作者程景偉朱卓東姚玉函濱水而建，與水交映，夾岸繁花，風光旖旎。在廣州增城，剛剛竣工并對外開放的增江6.5公裡省級碧道試點，成... 2023-02-05
生活泰森富裡還是拳王嗎
近日，2016年奧運會超重量級拳擊銀牌得主喬-喬伊斯（10-0，9KO）在接受媒體采訪時表示，現WBC/《拳壇》雜志重量級拳王英國“吉普賽皇帝”泰森-富裡（30-0-1，21KO）的重拳被很多人低估了，他與泰森-富裡實戰過，深有體會，泰森-... 2023-02-18
生活俄羅斯注定成為超級大國
中國有句話叫做“瘦死的駱駝比馬大”，意思是強大的事物，即便是衰弱了，依舊是強大的，弱小不到哪裡去，這顯示了基礎的重要性。這句話放在國家層面，更是如此。作為一個國家來說，強大後衰弱，也很難徹底沉淪，尤其是世界大國，那是典型的瘦死的駱駝，而且保... 2023-02-06
生活不定冠詞a和an的用法口訣
用法5:英語中，一些抽象名詞，比如“advice(建議，忠告)，information(信息)，air空氣，salt鹽”等名詞，被當作不可數名詞，這些詞前面不能加“a/an”。Example:用法6:英語中有些單詞，雖然單詞的第一個字母是元... 2023-01-17
生活不動産權證書多久辦好
不動産權證書多久辦好?為進一步提高不動産登記效率，方便群衆和企業辦事，減輕企業負擔，節約行政成本，近日，市不動産登記事務中心對不動産首次登記繕證方式進行了調整自7月19日起，對申請不動産首次登記的，不動産登記機構原則上不再繕寫紙質不動産權證... 2023-03-19
生活解暑菊花茶怎麼做
解暑菊花茶怎麼做?主料：雪梨1個、菊花2克、枸杞3克，下面我們就來說一說關于解暑菊花茶怎麼做?我們一起去了解并探讨一下這個問題吧!解暑菊花茶怎麼做主料：雪梨1個、菊花2克、枸杞3克。輔料：冰糖20克、清水3碗。菊花、枸杞洗淨後，用溫水泡3分... 2022-06-13
生活十大涉黑涉惡團夥
十大涉黑涉惡團夥?本報訊（記者韓雯）昨天，記者從市高院獲悉，曾在濱江道一帶“欺行霸市”“尋釁滋事”的涉惡團夥被依法宣判，4名被告人最高被判處有期徒刑11年，下面我們就來說一說關于十大涉黑涉惡團夥?我們一起去了解并探讨一下這個問題吧!十大涉黑... 2023-03-14
生活東瀛的櫻花開了要去看看嗎
如果說中國的春天是萬種花香融合的醉人香味，那麼日本的春天就要“純粹”很多。日本的古語中，将春天稱為「桜時」，櫻花盛開之季即是春天到來之時。每逢暖春，日本便淪陷在櫻花的浪漫之中。黛粉的花瓣遍布着整片天空，如霏雪般，婉轉而下。看過了富士山櫻花海... 2023-01-27
生活孫穎莎與陳幸同全國乒乓球錦标賽
2022年10月23日，乒乓球澳門冠軍賽迎來收官日，在率先結束的女單決賽，孫穎莎4-1戰勝陳幸同，首次奪得該賽事女單冠軍，拿到1000分和3.5萬美元獎金，鞏固積分榜首的位置。國乒四位隊員會師決賽，提前鎖定兩項單打冠軍，女單決賽率先進行，孫... 2023-03-14
生活鼻基礎很好做鼻綜合效果怎麼樣
自然即完美之所在！所謂自然？自然的鼻整形不是做過了像沒做一樣而是做出來的鼻子都像是天生長出來的與面部和諧過渡與五官比例完美搭配，無人工痕迹顯然多數人隻墊高鼻梁是不夠的如果鼻尖、鼻翼需要改變都應該進行鼻綜合手術那麼以下知識你要好好讀下了什麼是... 2023-02-07
生活生活當中的鐘漢良
【畫堂春·樂活】清悠小院短長亭，恰時微雨初晴。一叢芳樹翠煙凝，分外含情。掩卷會心對望，閑來拂葉疏橫。茶瓯香漫月華盈，樂作人生。好動，也好靜他出現在那個清悠的院落時，正值微雨初晴，空氣中彌漫着婉約濕潤的味道，他如同一抹跳脫的色彩，帶來了靓麗和... 2023-02-28
生活比亞迪速銳多媒體沒有記憶功能了怎麼辦
比亞迪速銳多媒體沒有記憶功能了怎麼辦?汽車比亞迪速銳多媒體沒有記憶分析：，接下來我們就來聊聊關于比亞迪速銳多媒體沒有記憶功能了怎麼辦?以下内容大家不妨參考一二希望能幫到您!比亞迪速銳多媒體沒有記憶功能了怎麼辦汽車比亞迪速銳多媒體沒有記憶分析... 2022-06-19
生活疏通乳腺結節不能吃的水果
随着社會的進步，越來越多的女性變得獨立自主，其工作能力更是不亞于男性。于是很多女性伴随着工作、生活、家庭等各種壓力的增大，不少女性朋友已經開始被乳腺疾病所困擾，很多女性朋友都不太在意，其實越是有乳腺疾病越要在意，每年一次的身體檢查還是要有的... 2023-02-08
生活熬夜了怎麼調整睡眠
生活中，有不少因為各種原因不得不熬夜的時候，比如像：工作值班加班趕工蹦迪、K歌、刷劇、玩遊戲......每當熬夜後，疲憊、腰酸、水腫都會襲來…長期熬夜還會增加心腦血管病、甚至老年癡呆的風險。長期熬夜危害一覽有什麼辦法能消除熬夜傷害“滿血複活... 2023-02-01
生活許人以偏愛盡餘生之慷慨
陳奕迅在《紅玫瑰》裡唱到這樣的一句話：“得不到的永遠在騷動，被偏愛的都有恃無恐。”仔細想想，在感情的世界裡，還真是如此。曾經看過這樣的一個故事：異地戀的兩個人，女生夢見男生劈腿，然後就打電話罵男生，還說是老天給她的暗示。男生不可理喻地向出租... 2023-01-26

tft每日頭條

> 生活

> 程序員吐槽段子

程序員吐槽段子

相关生活资讯推荐

热门生活资讯推荐

网友关注