喜歡段子的朋友,可以抓些段子保存成TXT格式,放到電子書裡空閑時間看看,網上搜索了一下,這個網站不錯,幹淨沒廣告:
網址也是簡單直接,不用費力氣去分析,這個網站的結構是多頁目錄,目錄中的連接對應具體的文章,所以抓取的工作也分為兩個步驟:
文章的目錄是這樣排列的,每頁10個段子,一共是164頁:
我們抓取其中任意一頁:
用CSV或TXT抓取,然後簡單的篩選、提取就得到了文章的具體網址。然後我們用這個查詢創建函數,隻要添加一個參數頁碼p:
文章抓取
一篇文章是一個頁面,與上一步抓取的網址相對應,先抓一個獨立頁面:
同樣使用文本格式來抓取,然後篩選、提取出我們要的文字,用這個查詢來建立一個文章抓取的函數,添加一個參數網址url:
通過這兩個步驟的準備工作,可以開始最後的抓取工作:
第一步:建立一個1-164的列表,轉為表格,并設置為文本
第二步:用這一列的頁碼作為參數,引用目錄抓取函數p,來抓取所有文章的網址:
展開抓取的表格,得到所有文章的網址:
第三步:用網址列作為參數,引用文章抓取函數,抓取段子内容:
展開整理一下就得到文本内容了:
如果很懶不想自己去翻頁,可以放到Power BI Desktop中用自動播放來處理一下:
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!