網(wǎng)絡爬蟲之通用爬蟲和聚焦爬蟲

更新時間:2021-06-09 來源:黑馬程序員瀏覽量:

1577370495235_學IT就到黑馬程序員.gif

根據(jù)使用場景，網(wǎng)絡爬蟲可分為通用爬蟲和聚焦爬蟲兩種。通用爬蟲是捜索引擎抓取系統(tǒng)（Baidu、Google、Yahoo等）的重要組成部分，主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地，形成一個互聯(lián)網(wǎng)內容的鏡像備份。聚焦爬蟲，是“面向特定主題需求”的一種網(wǎng)絡爬蟲程序。接下來，就對這兩種爬蟲分別進行介紹。

1. 通用爬蟲

通用爬蟲又稱全網(wǎng)爬蟲（Scalable Web Crawler），它將爬取對象從一些種子 URL擴充到整個Web上的網(wǎng)站，主要用途是為門戶站點搜索引擎和大型Web服務提供商采集數(shù)據(jù)。

這類網(wǎng)絡爬蟲的爬行范圍和數(shù)量巨大，對于爬行速度和存儲空間要求較高，對于爬行頁面的順序要求相對較低，同時由于待刷新的頁面太多，通常采用并行工作方式，但需要較長時間才能刷新一次頁面。

2. 聚焦爬蟲

聚焦爬蟲（Focused Crawler），又稱主題網(wǎng)絡爬蟲（Topical Crawler），是指選擇性地爬行那些與預先定義好的主題相關的頁面的網(wǎng)絡爬蟲。

和通用爬蟲相比，聚焦爬蟲只需要爬行與主題相關的頁面，從而極大地節(jié)省了硬件和網(wǎng)絡資源，保存的頁面也由于數(shù)量少而更新快，還可以很好地滿足一些特定人群對特定領域信息的需求。

猜你喜歡：

Python爬蟲可以做什么？

Python爬蟲難學嗎？學會需要多久？

三種分布式爬蟲策略的優(yōu)缺點

黑馬程序員python+大數(shù)據(jù)培訓課程

上一篇： NumPy常用的數(shù)據(jù)類型有哪些？怎樣進行轉換？ 下一篇：scrapy框架的工作流程介紹