爬蟲心得體會-tft每日頭條

爬蟲心得體會

健康更新时间:2025-11-07 14:20:59

爬蟲心得體會（爬蟲實戰8w網友親身體驗）1

學習！學習！！學習！！！學習之外目的到此為止！

上東東的時候，突然給我彈了一個的廣告，于是就點進去就看了一下評論，全是神評論啊。所以我就想着把大神們的評論們扒拉下來仔細瞅瞅，于是這篇文章就誕生了，純屬學習啊，不要想入非非啊，還有，不喜勿噴！

爬蟲心得體會（爬蟲實戰8w網友親身體驗）2

首先我先找了某東最火娃娃，裡面評論8w 條，這裡面神評論一定不少。所以決定從這個裡面扒拉我們想要獲取的數據

爬蟲心得體會（爬蟲實戰8w網友親身體驗）3

因為一些網站不喜歡外界的爬蟲消耗自己的服務器的大量資源，因此它們會有自己反爬蟲程序。如果不使用代理的話，他們就能識别出你是爬蟲，從而給你進行重定向無數次，導緻你的爬蟲報錯。所以我們要對我們的爬蟲進行僞裝。

爬蟲心得體會（爬蟲實戰8w網友親身體驗）4

那就需要帶上我們的防爬header三兄弟了。當然這隻是最基本的防爬措施。更多的反爬措施和技巧可以參考曾經它讓我惱怒抓狂，但是現在我對它是贊不絕口！

cookie - 側重于用戶的類型，這裡具體指的就是登錄的用戶呢還是遊客

refer - 指的是用戶從哪個頁面發出網絡的訪問和數據的請求

user-agent 指的是訪問後台服務器的是哪一個浏覽器

首先找到咱們防止反爬的必須參數。

爬蟲心得體會（爬蟲實戰8w網友親身體驗）5

在獲取數據的時候把它們加在header裡面就可以獲取到非空數據了。

接下來咱們先試試。

爬蟲心得體會（爬蟲實戰8w網友親身體驗）6

可以看到我們已經成功地獲取到數據了。但是數據格式還需要進一步的處理。首先咱們來分析一下獲取到的數據。

獲取到的數據前面多了20位的'fetchJSON_comment98(',後面多了四位的']}'。所以我們首先要去掉這些多餘的修飾符使之成為完成的json格式的數據。

json_data = response.text[20:-2]

再來看看運行結果：

爬蟲心得體會（爬蟲實戰8w網友親身體驗）7

好了，已經初步實現了我們的目标。因為在咱們的目标隻是評論而無需其他的參數。所以現在去網頁分析一下這些評論所在的位置。

爬蟲心得體會（爬蟲實戰8w網友親身體驗）8

可以看到我們想要的評論内容是在comments下面的content中，所以我們首先定位到comments中然後循環獲取content裡面的内容。

爬蟲心得體會（爬蟲實戰8w網友親身體驗）9

for comment in comments_all: print(comment['content'])

爬蟲心得體會（爬蟲實戰8w網友親身體驗）10

好了我們現在已經成功的獲取到了第一頁的内容，後面的評論需要進行翻頁操作，所以我們多翻幾頁找規律。

爬蟲心得體會（爬蟲實戰8w網友親身體驗）11

pageSize=10每頁固定顯示10條記錄。

不同之處就在于這個參數page，所以可以确定頁數是由它來控制的。所謂以我們可以設置一個變量來控制它，從而獲取到全部頁數的評論。

對get_spider_comments方法加入變量page，當我們指定page的值時，它就可以獲取固定頁面的評論。

在batch_spider_comments方法中sleep方法，用來模拟用戶浏覽，防止因為爬取太頻繁導緻ip被封。

for i in range(100): print('正在爬取' str(i 1) '頁數據....') get_spider_comments(i) #批量獲取評論方法 print('爬蟲結束！')

可以成功的獲取到所要爬取的頁數的全部數據！

爬蟲心得體會（爬蟲實戰8w網友親身體驗）12

接下來咱們爬取數據的任務已經結束了。現在呢我想通過詞雲可視化分析一下它火的原因。

for comment in comments_all: with open(comments_file_path, 'a ', encoding='utf-8') as f: f.write(comment['content'] '\n')

接下來看一下我們寫入到文件的内容

爬蟲心得體會（爬蟲實戰8w網友親身體驗）13

需要通過詞雲分析時就需要數據，所以我們需要把獲取到的評論先放存入文檔，這裡為了方便我就直接放入txt文檔了。

首先需要我們對jieba和wordcloud進行了解，使用pip install jieba對jieba庫進行安裝。然後用jieba對獲取到的評論進行分詞。

with open(comments_file_path, encoding = 'utf-8') as fin: comment_text = fin.read() word_list = jieba.lcut_for_search(comment_text) new_word_list = ' '.join(word_list)

來看效果

爬蟲心得體會（爬蟲實戰8w網友親身體驗）14

然後使用pip install wordcloud再安裝wordcloud。最後用generate方法生成詞雲圖。

好了接下來我們就需要找一張自己心儀的圖片來做分詞操作了。

所以之後大家可以按照自己的意願來設置圖片的形狀。

我選了一張萌萌哒的小狗的圖片。我在這裡引入了imageio的 imread方法以獲取原始圖片dog.jpg的參數

然後使用mask=mask 傳遞形狀參數，所以最後我們獲取到的就是一張圓形的詞雲圖

爬蟲心得體會（爬蟲實戰8w網友親身體驗）15

def create_word_cloud(): mask = imread('dog.jpg') wordcloud = WordCloud(font_path='msyh.ttc', mask = mask).generate(cut_words()) wordcloud.to_file('dog.png')

來看看實現詞雲效果之後的小狗圖

爬蟲心得體會（爬蟲實戰8w網友親身體驗）16

爬蟲心得體會（爬蟲實戰8w網友親身體驗）17

好了目标已經實現。源碼尚在整理中，想要學習的可以直接找我哦！

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

健康紋唇後顔色太紅怎麼淡化
做完漂唇後，需要從各方面進行護理，包含了飲食習慣，護膚習慣等。漂唇是為了唇色更好看，能夠有效提升個人五官美感以及整體氣質。一般漂唇之前會根據個人膚色氣質等進行定制，盡量做到完美契合。1、消毒：漂唇後要對嘴唇部位做好消炎和消毒，可以使用雙氧水... 2023-01-01
健康為什麼現在很多人點檀香
老山檀香産于印度，是一種非常珍稀而古老的樹種，老山檀香木材一般條形比較大且枝幹很直，質地、色澤以及香度都有别于其他地方産的“新山檀”。當然，其對于身體所産生的功效也不一樣。印度老山檀香最廣泛的用處在于鎮定情思、緩解急躁，老山檀片或粉燒熏可起... 2023-02-12
健康驢怎麼提煉阿膠
編前語“我有一隻小毛驢，我從來也不騎。有一天我心血來潮，騎着去趕集。我手裡拿着小皮鞭，我心裡正得意。不知怎麼嘩啦啦啦啦，我摔了一身泥….”壹國人一直迷信阿膠，他們認為吃阿膠能補血能養顔。但從營養學上講，阿膠的膠原蛋白營養價值并不高，對人體新... 2023-03-14
健康 86歲楊少華近照曝光
#楊少華#有網友在社交平台上曬出楊少華與三兒子同框的視頻，兒子楊倫的行為引起了大家的熱議。從視頻中看，楊倫帶着自己在餐館打包的飯菜回到家中，并表示這是自家的主打菜。擺入在桌子上的各種菜色，有牛窩骨、大閘蟹、牛肉條等多樣菜，清晰可見，一桌菜品... 2023-03-09
健康旋覆花曬幹能直接泡着喝
本文導讀：旋覆花對于大多數人來說都是比較陌生的，這是一種生活中常見的中藥材，今天，小編就來和大家一起詳細說說旋覆花泡水喝的功效，來了解下吧！聲明：圖片來源網絡，如有侵權，敬請告知旋覆花泡水喝的功效旋覆花的名字比較特别，雖然旋覆花是一種中藥材... 2022-11-05
健康蘆荟的作用有哪些功效和禁忌
蘆荟含煙酸、維生素等，有抗炎、止痛作用，是減肥、美容、防治便秘的佳品。另外，它還能提高機體的抗病能力，有抗感染、助愈合之效。下面就來看看蘆荟的功效與作用以及相關宜忌吧！【蘆荟的适宜人群】便秘、皮膚炎、糖尿病、支氣管炎患者【蘆荟的不适宜人群】... 2022-12-15
健康抑郁症究竟是如何治療的
抑郁症其實離我們并不遠，可能在我們身邊，就有抑郁症患者。據2019年世界衛生組織（WHO）披露數據估算，我國泛抑郁人數逾9500萬，也就是說，我們身邊每15個人當中，就有1個抑郁症患者。抑郁症，藏醫認為屬于“隆”病，是“隆”在心髒發生紊亂導... 2023-02-03
健康丁香作用及功效與作用
丁香作用及功效與作用?溫中降逆、散寒止痛、溫腎助陽丁香辛溫，歸脾、胃、腎經，有溫中降逆、散寒止痛、溫腎助陽的作用，可以治療胃寒嘔吐、打嗝辛溫、芳香，暖脾胃而行氣，尤其善于降逆，為治療胃寒嘔吐的重要藥物治療胃虛寒嘔吐、打嗝，丁香可以跟柿子蒂、... 2022-06-04
健康小腦萎縮的表現症狀可以治療嗎
小腦萎縮通過治療哪些症狀可以改善呢？小腦萎縮迄今為止仍是世界上一大難題，至今沒有特效藥可以治療，而這也就奠定了其地位，是為疑難病，其患病率迄今為止也還是比較低的，但今年來小腦萎縮的發病率卻在逐漸的上升。小腦萎縮一旦發病，将會逐步影響人的正常... 2022-11-01
健康卧室養花怎麼養
導語：卧室養花，必養3種，香氣淡雅，枝葉繁茂，養神促睡眠，身體精神棒！為了讓我們的家，看起來更加溫馨美觀，為了讓我們的家居生活更加環保健康，少不了在家裡養幾盆綠植，一般在陽台上露台上，大部分的花草植物都可以養。隻要自己喜歡的，隻要是美觀好看... 2023-03-22
健康快遞小哥背後的真實故事
提示！快遞生态圈主要目标群：（投資人私募基金券商機構各地方政府決策者快遞監管部門快遞經營者媒體從業者快遞上下遊經營者加盟網點老闆年薪30萬以上快遞物流從業者）添加公衆号之前請閱讀提示，是否屬于該目标群|綜合新甘肅訊息|快遞生态圈資訊組近日，... 2022-11-26
健康糖尿病人早餐該吃什麼最好
（醫患家特約作者：天津醫科大學第二醫院張醫生）糖尿病患者，平時注意好飲食，對于血糖的控制非常有利。那麼，糖尿病患者，早餐吃什麼好，也是很多人比較關心的問題。首先，有些糖尿病患者錯誤地認為，不吃早餐，整體攝入量會減少，會減少血糖波動，其實是大... 2023-02-11
健康減肥時你是如何控制自己的食欲
減肥時你是如何控制自己的食欲?有的人吃兩口就飽了，有的人吃飽了還能再吃兩口，這就是食欲的問題了，但凡偏胖的人食欲都會更好一些因為吃得多會導緻身材發胖，所以就需要控制食欲才能達到減肥的目的吃東西确實很幸福，但幸福之後就會發福，變成小胖紙，沒事... 2023-01-01
健康荸荠煮多久才算熟
荸荠煮多久才算熟?荸荠其實可以生吃也可以熟吃，如果要煮熟吃，約10-20分鐘就可以了，用高壓鍋大約五分鐘就夠了蒸的話就會要的時間比較長點，至少要半小時以上的時間其實呢，無論是生吃荸荠，還是熟吃荸荠，其實吃荸荠都是想要它的營養成分，來達到增加... 2022-06-05
健康通草能通乳散結嗎
多數人都知道通草是一味通乳的中藥，卻不知還有消除乳房腫塊，達到豐胸美乳作用。婦女産後乳汁不下，乳汁不足多用通草炖豬蹄、炖魚，調治。但中醫常用通草、甲珠、王不留、甘草研成細粉，用蜂蜜為丸，治療乳腺炎腫痛，乳房腫塊，乳腺增生、乳房結節等症。通草... 2023-03-10
健康妊娠期牙龈出血特别難聞
妊娠期牙龈出血特别難聞?圖片來源：視覺中國近日，長沙市婦幼保健院口腔科主治醫生周蓉晚上12點半接到長沙市婦幼保健院總值班電話，告知産五科一産婦突發牙龈出血，值班醫生對症處理後出血一直未止，現需要口腔科會診周蓉醫師立即從河西的家中趕到病房，檢... 2022-10-15
健康杭州市一模的語文試卷作文範文
杭州市一模的語文試卷作文範文?喜迎綠色亞運，共享健康生活，下面我們就來說一說關于杭州市一模的語文試卷作文範文?我們一起去了解并探讨一下這個問題吧!杭州市一模的語文試卷作文範文喜迎綠色亞運，共享健康生活盼望着，盼望着，2022年杭州亞運會的腳... 2023-02-19
健康銀子和琥珀哪個功效作用大
銀子和琥珀哪個功效作用大?銀子功效作用大銀離子有很強的殺菌作用，對人體很有好處它不僅有經濟價值，美觀大方，而且能做驗毒工具，古人說，身帶銀健康富貴會相伴，這不僅因為它的貴重金屬，醫學上，它比黃金對人體健康的效能還要高，下面我們就來聊聊關于銀... 2022-07-04
健康一般反酸燒心是怎麼回事
反酸，燒心是不是消化不良導緻的？還是胃腸道疾病引起的？反酸、燒心在生活中很常見，有些人出現這些症狀後，歸結為消化不良引發的，但是真的就那麼簡單嗎？反酸、燒心作為一種胃腸道症狀，少部分是消化不良引起的，而我們從相關資料中來看，總是反酸、燒心，... 2023-01-20
健康王子文如何找到自己的生活
王子文，隻有159cm的身高，在娛樂圈其實算不得好苗子，但是卻經曆過“京圈大佬”保護，單身媽媽公開的大風大浪。所以她出道之後演的很多角色都是“小朋友”，《家的N次方》裡面的蠻橫的齊齊，《男人幫》裡有點任性，喜歡上自己爸爸朋友的小姑娘潇潇。加... 2023-02-17
健康酸奶可以促進消化嗎可以減肥嗎
變美YesorNo|第3期飯後喝酸奶不僅不能減肥，還會胖。酸奶既不能幫助腸道蠕動，也沒有助消化的酶，并不能促進食物消化，所以也不能幫助減肥。而且，酸奶含糖量不低。根據《中國食物成分表（第2版）》，酸奶的平均碳水化合物含量為9.3g/100g... 2023-02-14
健康寶寶健康書籍推薦
現如今孩子們的學習壓力越來越大,學校門口肉眼可見孩子們整天馱着鼓鼓的書包，無精打采地走進校園,長此以往,以緻于很多孩子脊椎出現了很大問題。一方面與背負的學習資料過多有關，但關鍵還在于書包的質量。其實，一款好書包，不僅能助力孩子學習提分，還能... 2023-01-17
健康孕期夢到下面出血是怎麼回事
孕期夢到下面出血是怎麼回事?做生意的孕婦夢見下面出血了，代表籌劃周密再進行，否則遭受失敗，下面我們就來說一說關于孕期夢到下面出血是怎麼回事?我們一起去了解并探讨一下這個問題吧!孕期夢到下面出血是怎麼回事做生意的孕婦夢見下面出血了，代表籌劃周... 2022-08-18
健康怕靜電是心理作用嗎
你有多久沒有光着腳丫踩在大地上了？我想你可能都不記得上一次光着腳踩在大地上是什麼時候了。人身體上靜的電長期得不到釋放，會導緻身體與心理疾病。靜電會改變身體的電位差，對心髒健康的影響是很大的，身體上的靜電長期存在，放不出去，也會引起失眠，煩躁... 2022-11-26
健康雞眼都有哪些并發症呢
任何疾病發生以後都是要引起原因的，大家隻有了解這種疾病的引起原因以後，才可以針對性的治療這種疾病，而對于雞眼這種疾病的發生也是不例外的，因此這種疾病的引起原因也開始受到大家的關注，那麼導緻雞眼發病原因是什麼?導緻雞眼的主要病發原因雞眼重要的... 2022-11-08
健康低熱量低脂肪減肥食譜
眨眼間這不平凡的2020年已經進入了第八個月，感歎時間飛快的同時，小編也在為自己停滞不前的減肥計劃發愁。作為一個妥妥的肉食愛好者，節食變得格外煎熬，現在更是一看到那綠油油的菜葉子就覺得反胃。好在最近和閨蜜學會了烤雞胸肉的做法，這才覺得有了堅... 2023-02-09
健康檸檬茶的好處有哪些
【新朋友】點擊上面藍色字“小勿老師”關注↑↑↑【老朋友】點擊右上角，轉發或分享本頁面内容蜂蜜檸檬茶—美白又潤腸推薦理由：每天用檸檬泡水喝，可以提高皮膚的免疫力，同時還有美白祛斑減肥的功效。喝的時候，取兩三片蜜漬檸檬，加兩勺檸檬蜂蜜汁，用溫開... 2023-02-12
健康藏紅花泡水喝的功效與作用及禁忌
藏紅花泡水喝的功效與作用及禁忌?營養價值保肝利膽,活血化瘀,解郁安神，今天小編就來聊一聊關于藏紅花泡水喝的功效與作用及禁忌?接下來我們就一起去研究一下吧!藏紅花泡水喝的功效與作用及禁忌營養價值保肝利膽,活血化瘀,解郁安神功效作用1.保肝利膽... 2022-10-02
健康瘧原蟲癌症治療最新進展
瘧原蟲癌症治療最新進展?瘧原蟲治愈癌症尚存争議，我來為大家科普一下關于瘧原蟲癌症治療最新進展?以下内容希望對你有幫助!瘧原蟲癌症治療最新進展瘧原蟲治愈癌症尚存争議這些關于癌症的說法确是謠言無疑辟謠春節期間最大的炮仗不是“帶着地球去流浪”，而... 2022-11-19
健康寶寶怎樣吃更健康
寶寶怎樣吃更健康?一定要讓孩子吃好早餐有的家長由于工作很忙，早上起來，塞給孩子幾元錢，讓他買吃的，殊不知，這樣家長就忽略了孩子的健康情況早飯是很重要的，一定要給孩子做好有營養的早餐，接下來我們就來聊聊關于寶寶怎樣吃更健康?以下内容大家不妨參... 2022-06-18

tft每日頭條

> 健康

> 爬蟲心得體會

爬蟲心得體會

相关健康资讯推荐

热门健康资讯推荐

网友关注