本文大綱:??
1、爬蟲(chóng)爬蟲(chóng)是有分友爬什么?反爬蟲(chóng)又是什么?
2、爬蟲(chóng)有哪些分類(lèi)?類(lèi)白
3、爬中流程與搜索引擎工作流程
4、話(huà)說(shuō)??好朋http/https協(xié)議與狀態(tài)碼
5、爬蟲(chóng)robots協(xié)議
爬蟲(chóng)是有分友爬什么?反爬蟲(chóng)又是什么?
這里的爬蟲(chóng)不是我們生活中的爬蟲(chóng),如蜘蛛。?類(lèi)白這里的話(huà)說(shuō)好朋爬蟲(chóng)更多指的是網(wǎng)絡(luò )爬蟲(chóng),即我們叫??它網(wǎng)頁(yè)蜘蛛或網(wǎng)絡(luò )機器人。爬蟲(chóng)當然,有分友爬在S(′?_?`)EO里,類(lèi)白叫網(wǎng)頁(yè)蜘蛛更多。話(huà)說(shuō)好朋
網(wǎng)絡(luò )爬蟲(chóng),爬蟲(chóng)是有分友爬一種按照一定規則,自動(dòng)地抓取互聯(lián)網(wǎng)上的類(lèi)白信息的一種程序。他有一個(gè)英文名叫spider,比如百度網(wǎng)頁(yè)蜘蛛就叫baidus??pider,那搜狗的就叫Sogou spider。
這也是我們SEO人員做網(wǎng)站優(yōu)化排名會(huì )聽(tīng)說(shuō)的一個(gè)詞。網(wǎng)站為啥沒(méi)(mei)收錄呢?原來(lái)蜘蛛沒(méi)來(lái)抓??!如何看這個(gè)爬蟲(chóng)蜘蛛朋友來(lái)沒(méi)來(lái)呢,讓技術(shù)把網(wǎng)站日志??下載給我們??,我們就可以判斷了,你說(shuō)算不算好朋友?
百度爬蟲(chóng)是什(shen)么?Baiduspider是啥?
Baiduspider是百度搜索引擎的一個(gè)自動(dòng)程序,它的(′;ω;`)作用是訪(fǎng)問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè),建立索引數據庫,使用戶(hù)┐(′д`)┌能在百度搜索引擎中搜索到網(wǎng)站上的網(wǎng)頁(yè)。百度還有哪些蜘蛛呢?如下圖。最多是圈中這個(gè),記得哈~
反爬蟲(chóng)是什么?
我們以門(mén)戶(hù)網(wǎng)站舉例,企業(yè)網(wǎng)站也同理哈。門(mén)戶(hù)網(wǎng)站通過(guò)相應的策略和技術(shù)手段,防止爬(′?_?`)蟲(chóng)程序進(jìn)行網(wǎng)站數據的爬取,這就叫反爬蟲(chóng)。
當然,其實(shí)還有反反爬蟲(chóng),即爬蟲(chóng)程序通過(guò)相應的策略和技術(shù)手段,破解了門(mén)戶(hù)網(wǎng)站的反爬蟲(chóng)手段,從而爬取到相應的數據,這就叫反反爬蟲(chóng)。
再白話(huà)舉例:你要來(lái)采集??我的內容(爬蟲(chóng)),我不給你采并且我做防采集(反爬蟲(chóng))。你呢,又搞了更高技術(shù)把我防采集攻破了采集(反反爬蟲(chóng)),這樣理解了吧?
爬蟲(chóng)有哪些分類(lèi)?
爬蟲(chóng)總共就分兩類(lèi):通用爬蟲(chóng)與聚焦爬蟲(chóng)。
聚焦爬蟲(chóng)??:它是根據指定??的需求抓取網(wǎng)絡(luò )上指定網(wǎng)站的數據。比如:獲取知乎問(wèn)答上的某一問(wèn)題的瀏覽量和回答人數,而不是獲取整個(gè)頁(yè)面中??所有數據。???它也可以理解叫特定爬蟲(chóng)。
上面提到的反爬蟲(chóng)與反反爬蟲(chóng),基本上都是在反這種聚焦爬蟲(chóng)哈,你也可以理(li)解為爬蟲(chóng)攻防戰哈哈哈。
爬中流程與搜索引擎工作流程
爬蟲(chóng)一般工作流程:確定某個(gè)URL——發(fā)送請求——響應內容—(◎_◎;)&mdash(′;д;`);提取數據——保存數(′?`)據。
搜索引擎蜘蛛工作流程:爬取網(wǎng)頁(yè)(′_`)——存儲數據—&mdas??h;數據預處理——提供用戶(hù)搜索網(wǎng)頁(yè)排名。
是不是ヽ(′▽?zhuān)?ノ感覺(jué)難理解?發(fā)送請求是什么,響應內容又是什么?這個(gè)往下看HTTP協(xié)議與狀態(tài)看完你就懂了。
關(guān)于搜索引擎數據預處理在處理(╬?益?)什??么,怎么理解?看公眾號白楊SEO兩年前寫(xiě)過(guò)這篇《白楊??SEO:大白話(huà)告訴你理解搜索引擎工作原理的意義和運用》,看完你就懂了。
http/https協(xié)議與狀(??ヮ?)?*:???態(tài)碼
HTTP協(xié)議是指Hyper Text Transfer Protoc( ???)ol(超文本傳輸協(xié)議)的縮寫(xiě),是用于從萬(wàn)維網(wǎng) WWW(World Wide Web縮寫(xiě))服務(wù)??(╯‵□′)╯器傳輸ヽ(′▽?zhuān)?ノ超文本??到本地瀏覽器的傳送協(xié)議。默認端口號:80。
而HTTPS (Secure Hypertext(°□°) Transfer Protocol)安ヽ(′ー`)ノ全超文本傳輸協(xié)議指的是HTTPS是在HTTP上建立SSL加密層,并對傳輸數據進(jìn)行加(jia)密,是HTTP協(xié)( ???)議的安全版。默認端口號:443。
你是不是理?解不了這個(gè)HTTP到底什么東東?簡(jiǎn)單白話(huà)來(lái)說(shuō)這個(gè)就是用來(lái)傳輸和接收頁(yè)面的,保證你的電腦能快速傳輸文(wen)本文檔并且讓你看到哈。
至于HTTP的請求頭,響應頭,都是各種代碼,白楊SEO就不在這??里寫(xiě)了,如果你要真的想了解,自己去搜索,這??里只講一下我們SEO中會(huì )看到的HTTP請求響應狀態(tài)碼,一般狀態(tài)碼如下:
圖片
上面只要是2或者3開(kāi)頭都是好的,比如查白楊SEO博客的:
圖片
圖片
輸入http://www.baiyangseo.com返回是301,而輸入https://www.baiyangseo.com返回的是200正(′▽?zhuān)?)常的你知道為什么嗎?
其實(shí),這在SEO里來(lái)說(shuō),是因為兩個(gè)不同URL內容是一模一樣,為了讓搜索引擎避免認為作弊,所以做了301永久重定向。簡(jiǎn)??單理解,你用(???)不帶s的HTTP那個(gè)域名打開(kāi)就是這個(gè)帶的了哈。
關(guān)于這個(gè)狀態(tài)碼,如果你想學(xué)習了解更深入一點(diǎn),同樣可以白楊SEO公眾號上(shang)這篇:《白楊SEO:SEO入門(mén)學(xué)習之搜索引擎蜘蛛與網(wǎng)站HTTP狀態(tài)碼》
robots協(xié)議
最后,來(lái)到針對搜索引擎網(wǎng)頁(yè)蜘蛛robots協(xié)議了。這個(gè)如果你是學(xué)SEO的,肯定要學(xué)的。
robots協(xié)議是??什么?簡(jiǎn)單理解就是網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎,網(wǎng)站上哪些頁(yè)面可以抓取,那些頁(yè)面不(bu)能抓(′▽?zhuān)?取(qu)!但是,它僅僅是互聯(lián)網(wǎng)中的一種約定而已。所以有些人說(shuō)我??明明禁止XXX蜘蛛還是被抓取(qu)了哈哈哈。
它長(cháng)啥樣?到底有什么用(yong)?
圖片
長(cháng)??啥樣,如上圖,作用就是上面說(shuō)的,在SEO(′?`*)里就是告訴蜘蛛來(lái)爬我這里,一般每個(gè)站都會(huì )做這個(gè),因為蜘蛛首先要爬取一個(gè)頁(yè)面這??個(gè)地方是最先爬取的,也會(huì )反復爬取。
作者簡(jiǎn)介:
白楊SEO,專(zhuān)注SEO研究十年,SEO、流量實(shí)戰派,對互聯(lián)網(wǎng)精準流量有深入研究。個(gè)人微信:baiyang2047