更新時(shí)間:2023-03-13 來(lái)源:黑馬程序員 瀏覽量:
多進(jìn)程爬蟲(chóng)一般也被視為分布式爬蟲(chóng)的基礎(chǔ),在單機(jī)上可以使用。通常來(lái)說(shuō)大型網(wǎng)站采用分布式來(lái)部署服務(wù)器,能夠采用多進(jìn)程同時(shí)間在不同的服務(wù)器上進(jìn)行爬取。
在實(shí)際的數(shù)據(jù)采集過(guò)程中,既考慮網(wǎng)速和響應(yīng)的問(wèn)題,也需要考慮自身機(jī)器的硬件情況,來(lái)決定設(shè)置多線程或者多進(jìn)程。因此,如果需要爬取的數(shù)據(jù)任務(wù)量很大,那么可以考慮多進(jìn)程+多線程的機(jī)制。先創(chuàng)建多個(gè)進(jìn)程完成不同的任務(wù),然后每個(gè)進(jìn)程內(nèi)部再創(chuàng)建多個(gè)線程,最后完成需要爬取到的數(shù)據(jù)。