首頁(yè)常見(jiàn)問(wèn)題正文

為什么用Selenium做爬蟲?Selenium爬蟲機(jī)制優(yōu)勢(shì)

更新時(shí)間:2023-10-30 來(lái)源:黑馬程序員 瀏覽量:

Selenium是一個(gè)Web應(yīng)用的自動(dòng)化測(cè)試框架,可以創(chuàng)建回歸測(cè)試來(lái)檢驗(yàn)軟件功能和用戶需求,通過(guò)框架可以編寫代碼來(lái)啟動(dòng)瀏覽器進(jìn)行自動(dòng)化測(cè)試,換言之,用于做爬蟲就可以使用代碼啟動(dòng)瀏覽器,讓真正的瀏覽器去打開(kāi)網(wǎng)頁(yè),然后去網(wǎng)頁(yè)中獲取想要的信息!從而實(shí)現(xiàn)真正意義上無(wú)懼反爬蟲手段。

例如在拉勾網(wǎng)上搜索傳智播客,找到對(duì)應(yīng)的ajax請(qǐng)求地址,使用postman來(lái)測(cè)試數(shù)據(jù):
1698652035728_爬蟲.png

前幾次可能會(huì)獲取到數(shù)據(jù),但多幾次則會(huì)出現(xiàn)操作頻繁請(qǐng)稍后再試的問(wèn)題,很多 API 也都進(jìn)行了加密處理:

1698652115537_爬蟲2.png

而通過(guò)Selenium可以操作瀏覽器,打開(kāi)某個(gè)網(wǎng)址,接下來(lái)只需要學(xué)習(xí)其API,就能獲取網(wǎng)頁(yè)中需要的內(nèi)容了!

反爬蟲技術(shù)只是針對(duì)爬蟲的,例如檢查請(qǐng)求頭是否像爬蟲,檢查IP地址的請(qǐng)求頻率(如果過(guò)高則封殺)等手段

而Selenium打開(kāi)的就是一個(gè)自動(dòng)化測(cè)試的瀏覽器,和用戶正常使用的瀏覽器并無(wú)差別,所以再厲害的反爬蟲技術(shù),也無(wú)法直接把它干掉,除非這個(gè)網(wǎng)站連普通用戶都想放棄掉(12306曾經(jīng)迫于無(wú)奈這樣做過(guò))


分享到:
在線咨詢 我要報(bào)名
和我們?cè)诰€交談!