tft每日頭條

 > 科技

 > python 分析爬取的數據

python 分析爬取的數據

科技 更新时间:2024-06-30 02:32:06

爬取時間2022/8/15

用于爬取的電腦配置:16内存,中端CPU12核.Windows系統

python版本3.8.5

省略了從主網頁一步步爬取鍊接挖掘到m3u8文件的過程,直接以能下載到視頻的m3u8文件開始.

注:>>>>多線程爬取視頻見代碼1

>>>>> os模塊合成視頻文件及其最大合成數見代碼2

代碼如下

python 分析爬取的數據(python多線程爬取)1

代碼1--下載視頻

python 分析爬取的數據(python多線程爬取)2

代碼2--用os合成ts和mp4文件

代碼1的運行結果

python 分析爬取的數據(python多線程爬取)3

結果1--pycharm的顯示結果

python 分析爬取的數據(python多線程爬取)4

結果2--文件管理器中的結果

代碼2的運行結果

python 分析爬取的數據(python多線程爬取)5

結果1--文件管理器中的結果

python 分析爬取的數據(python多線程爬取)6

結果2--最後合成的視頻-左(網站視頻)-右(爬取合成後的視頻)

----------------------------------------------

代碼1及其結果可以看到(及額外說明):

1>創建了40個線程數,

2>爬取3586個ts文件,大小為545M

3>共花費210秒的時間

4>爬取期間電腦CPU使用率一直維持在13%-18%左右,内存使用率無變化

用單程爬取這個視頻的話,需要整整兩個小時,(親測)

用異步協程爬取這個視頻的話,個人估計60-70秒左右.(親測用異步十秒不到就爬了700多ts文件,結果被網站屏蔽了)

----------------------------------------------

代碼2及其結果可以看到(及額外說明):

1>反複手動修改後的代碼,不想修改可以弄循環一次性解決

2>每次取650個ts文件合并,

3>合并成了第1-6個mp4文件,

4>最後再把1-6的MP4文件合并成最終的MP4文件.

5>再打開網站的視頻作對比,時長是一樣的,畫面也能做到同步,那麼爬取正确

os模塊合成ts文件文件數量最大在650左右,(一次性取700個ts文件合并失敗)

網絡盛傳的最大數在450左右,隻能說實踐出真知.東西是不斷在更新的.

----------------------------------------------

最後附上雲盤的源代碼以及ts文件鍊接

代碼>阿裡雲盤分享 ts文件>阿裡雲盤分享

----------------------------------------------

重點:

>>>>僅供個人學習,請于24小時内删除. 如要觀看視頻,請支持正版.

>>>>悠着點爬,勿大流量爬取.

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved