網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,它們被廣泛用于互聯網搜索引擎或其他類似網站,可以自動采集所有其能夠訪問到的頁面内容,以獲取或更新這些網站的内容和檢索方式。從功能上來講,爬蟲一般分為數據采集,處理,儲存三個部分。
Web網絡爬蟲系統的功能是下載網頁數據,為搜索引擎系統提供數據來源,很多大型的網絡搜索引擎系統都是基于Web數據采集的搜索引擎系統,由此可見Web網絡爬蟲在搜索引擎中的重要性。
在網絡爬蟲的系統框架中,主過程由控制器、解析器、資源庫三部分組成。控制器的主要工作是負責給多線程中各個爬蟲線程分配工作任務;解析器的主要工作是下載網頁,進行網頁的處理,處理的内容包括JS腳本标簽、CSS代碼内容、空格字符、HTML标簽等内容。資源庫是用來存放下載到的網頁資源,一般會采用大型的數據庫存儲,并對其建立索引。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!