大家好,我是公衆号3分鐘學堂的郭立員~
按鍵其實并不适合做采集爬蟲的工具,但是該有的命令也是有的,所以練手還是可以的。
采集的流程:
①找到目标網站
②提取網頁源碼,一般網站是不需要協議頭、cookie啥的
③分析源碼中想要的内容,用正則提取出來
④保存在本地,文本、表格。。。
注意:一般不采集大型的網站,因為那些網站通常有防爬蟲機制,會對ip限制,如果想要采集那些網站的數據,需要對接ip代理。
本期例子是采集按鍵論壇的帖子标題和網址:
效果如下:
源碼:
練習時的一些體會:
①保存csv的表格形式更方便查看,不過要注意标題中不要有英文字符的逗号。
②正則匹配結果中還要html的标簽,處理時有點麻煩,我是增加判斷和二次提取。
③為了方便查看,在存儲文件命名時加上一個時間戳(time命令),每次都可以生成一個新的文件。
=正文完=
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!