爬取時間2022/8/15
用于爬取的電腦配置:16内存,中端CPU12核.Windows系統
python版本3.8.5
省略了從主網頁一步步爬取鍊接挖掘到m3u8文件的過程,直接以能下載到視頻的m3u8文件開始.
注:>>>>多線程爬取視頻見代碼1
>>>>> os模塊合成視頻文件及其最大合成數見代碼2
代碼如下
代碼1--下載視頻
代碼2--用os合成ts和mp4文件
代碼1的運行結果
結果1--pycharm的顯示結果
結果2--文件管理器中的結果
代碼2的運行結果
結果1--文件管理器中的結果
結果2--最後合成的視頻-左(網站視頻)-右(爬取合成後的視頻)
----------------------------------------------
代碼1及其結果可以看到(及額外說明):
1>創建了40個線程數,
2>爬取3586個ts文件,大小為545M
3>共花費210秒的時間
4>爬取期間電腦CPU使用率一直維持在13%-18%左右,内存使用率無變化
用單程爬取這個視頻的話,需要整整兩個小時,(親測)
用異步協程爬取這個視頻的話,個人估計60-70秒左右.(親測用異步十秒不到就爬了700多ts文件,結果被網站屏蔽了)
----------------------------------------------
代碼2及其結果可以看到(及額外說明):
1>反複手動修改後的代碼,不想修改可以弄循環一次性解決
2>每次取650個ts文件合并,
3>合并成了第1-6個mp4文件,
4>最後再把1-6的MP4文件合并成最終的MP4文件.
5>再打開網站的視頻作對比,時長是一樣的,畫面也能做到同步,那麼爬取正确
os模塊合成ts文件文件數量最大在650左右,(一次性取700個ts文件合并失敗)
網絡盛傳的最大數在450左右,隻能說實踐出真知.東西是不斷在更新的.
----------------------------------------------
最後附上雲盤的源代碼以及ts文件鍊接
代碼>阿裡雲盤分享 ts文件>阿裡雲盤分享
----------------------------------------------
重點:
>>>>僅供個人學習,請于24小時内删除. 如要觀看視頻,請支持正版.
>>>>悠着點爬,勿大流量爬取.
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!