我們經(jīng)常在網(wǎng)站日志(′▽?zhuān)?)中看到各種爬蟲(chóng)抓取記錄,百度最常見(jiàn)的??蜘蛛抓取蛛就是百度蜘蛛等搜索引( ?▽?)擎,以百度為例,主度蜘通常我們判斷??是特征否是百度蜘蛛抓取看用戶(hù)代理字符串也就是User-Agent,但是模擬User-Agent是可以模擬的,所以很多時(shí)候也會(huì )有虛假的何正模擬偽裝成百度蜘蛛來(lái)抓取,這時(shí)候我們就需要學(xué)會(huì )分辨真偽。識百
移動(dòng)UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit??/534.46 (KHTML,likeGecko) Versi(╬ ò﹏ó)on/5.1 Mobile Saf??ari/10600.6.3 (compatible; Baiduspider/(╯°□°)╯2.0;+
http://www.baidu.com/search/spider.html)
新增渲染UA:
移動(dòng)UA:M??ozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleW??ebKit/601.1.??( ?ヮ?)46 (KHTML, like Ge(╯°□°)╯cko) Version/9ヽ(′?`)ノ.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +
http://www.baidu.com/sear??ch/spider.html)
PC UA:Mozi(′?`*)lla/5.0 (compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spide??r.html)
需要注意的是百度新增了一個(gè)移動(dòng)的User-Agent,和一個(gè)PC的主度蜘User-Agent。我們知道了百度蜘蛛的特征U(╬?益?)ser-Agent,如何正確識別和判???斷某條抓取是模擬否是真實(shí)的百度蜘蛛。
1、何正首選我們需要通過(guò)關(guān)鍵詞找User-Agent中是識百否包含??Baiduspider;
2、如果想區分移動(dòng)和(he)PC的百度蜘蛛的話(huà),我們還需要在結果中再進(jìn)行關(guān)鍵詞過(guò)濾,移動(dòng)端的User-Agent包含:??Android 、iPhone、Mobile等三個(gè)中至少一個(gè)。
3、通過(guò)上述操作我們可以分辨出哪些抓取是百度蜘蛛抓取,但并???不能分辨真偽。
1、驗證百度蜘蛛真偽我們一般使用的是DNS反查IP的方式來(lái)進(jìn)(′?ω?`)行判斷,首選我們需要找到上述抓取記錄中蜘蛛的IP。
2、以windows操作( ?▽?)系統為例,開(kāi)始運行中輸入cmd 彈出窗口中輸入 nslookup (上述IP地??址),判斷百度蜘蛛的真偽,真是百度蜘蛛結果中會(huì )返回以*.b??aidu.co??m 或*.bai??du.jp 的格式命名hostname,如不包含則為假百度蜘蛛。
3、也有在線(xiàn)百度蜘蛛真偽查詢(xún)工具可直接查詢(xún)。
版權聲明:本文內容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻,該文觀(guān)點(diǎn)僅代表作者本人。本站僅提(′?_?`)供信息存儲空間服務(wù),不擁有所有權,不承擔相關(guān)法律責任。如發(fā)現本站有涉嫌抄襲ヽ(′ー`)ノ侵權/違法違規的內容, 請發(fā)送郵件至 [email protected] 舉報,一經(jīng)查實(shí),本站將立刻刪除。