網(wǎng)站robots協(xié)議使用教程
robots協(xié)議可以說(shuō)是協(xié)s協(xié)各種網(wǎng)絡(luò )爬蟲(chóng)程序與網(wǎng)(//ω//)站之間的一種約??定,前段時(shí)間etao和京東就360buy內容的議網(wǎng)議使用教抓取鬧得ヾ(′▽?zhuān)??像兩個(gè)孩子(PS:這篇文章寫(xiě)了一段(′?_?`)時(shí)間了),且不論京東與etao的協(xié)s協(xié)對錯是非,從中我們可以知道robots可(ke)以將一些內容不開(kāi)放給網(wǎng)絡(luò )爬蟲(chóng)抓(′▽?zhuān)?取,議網(wǎng)??議使用教網(wǎng)絡(luò )爬蟲(chóng)呢也完全可以不理會(huì )robots協(xié)議,??協(xié)s協(xié)按照自己(??-)?的議網(wǎng)議使用教喜好獲取你的信息,縱然是協(xié)s協(xié)需要登錄的網(wǎng)站爬蟲(chóng)也能注冊賬號登錄,只是議網(wǎng)議使用教看想與不想。
也許有人說(shuō)這樣??看robots協(xié)議一點(diǎn)作用也沒(méi)有了,協(xié)s協(xié)zhihu也曾討論過(guò)(guo)robots是議網(wǎng)議使用教否涉及法律,協(xié)議的協(xié)s協(xié)存在有其一定的約束力,但對于流氓行徑連法律都不能完全阻止更別說(shuō)協(xié)議了。議網(wǎng)議使用(yong)教
robots協(xié)議在遵守其約束的協(xié)s協(xié)行為中能對(dui)SEO幫助很大的,下面看下都能做些什么?議網(wǎng)議使用教
第一:robots能規范網(wǎng)站的URL
網(wǎng)站有兩種甚至3種以上地址的時(shí)候,該協(xié)議就能(╯°□°)╯禁止??蜘蛛爬去你不想(′?`)展示的協(xié)s協(xié)幾種URL,而使網(wǎng)站解決站??內重復問(wèn)題集中權重。
網(wǎng)站有時(shí)候為了數(shu)據分析會(huì )在url接受后添加一些參數以區分來(lái)路,這樣也是能用該協(xié)議解決的
第二:鑒于網(wǎng)站不想通過(guò)搜索引擎展示給用戶(hù)?的一些內容,也可以使用 robots.txt解決(jue)
第三:控制蜘蛛抓取(qu),以減輕服務(wù)器負擔,對于內容數量比較大的網(wǎng)站 蜘蛛抓取對于服務(wù)器資源的消耗是十分大的。
第四:和nofollow配合控制蜘蛛對網(wǎng)站的充分抓取
第五:robots.txt 支持添加網(wǎng)站地址以促進(jìn)網(wǎng)站抓取和收錄,語(yǔ)法:Sitemap:http://www.snlvyou.com/sitemap.xml
robots.txt文(wen)件用法舉例
例1.禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的任何部分User-agent: *Disallow: /例2.允許所有的robot訪(fǎng)問(wèn)(或者也可以建一個(gè)空文件 “/robots.txt”)User-ag??ent: *Allow: /另一種寫(xiě)法是User-agent: *Disallow:例3. 僅禁止Baidu??spider訪(fǎng)問(wèn)您的網(wǎng)站User-agent: BaiduspiderDisallow: /例4. 僅允許Baiduspider訪(fǎng)問(wèn)您的網(wǎng)站User-agent: BaiduspiderAllow:/例5. 禁止??spider訪(fǎng)問(wèn)特定目錄在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對搜索引擎的訪(fǎng)問(wèn)做了限制,即robot不會(huì )訪(fǎng)問(wèn)這三個(gè)目錄。需要注意的是對每一個(gè)目錄必須分開(kāi)聲明,而不能寫(xiě)成 “Disallow: /cgi-bin/ /tmp/”。User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/例6. 允許訪(fǎng)問(wèn)特定目錄中的部分ur(′;ω;`)lUser-agent: *Allow: /cgi-bin/seeAllow: /tmp/hiAllow: /~joe/look例7. 使用”*”限制訪(fǎng)問(wèn)url禁止訪(fǎng)問(wèn)/cgi-bin/目錄下的所有以”.htm”為后綴的URL(包含子目錄)。User-agent: *Disallow: /cgi-bin/*.htm例8. 使用(yong)”$”限制訪(fǎng)問(wèn)url僅允許訪(fǎng)問(wèn)以”.htm”為后綴的URL。User-agent: *Allow:/ .htm$例9. 禁止訪(fǎng)問(wèn)網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面User-agent??: *Disallow: /*?*例10. 禁止Baiduspider抓取網(wǎng)站上所有圖片僅允許抓(⊙_⊙)取網(wǎng)頁(yè),禁???止抓取任何圖片。User-agent: BaiduspiderDisallow: /*.jpg$Disallow: /* .jpeg$Disallow:/* .gif$Disallow:/* .png$Disallow: /*.bmp$例11. 僅允許Baiduspider抓取網(wǎng)頁(yè)和。gif格式圖片允許抓取網(wǎng)頁(yè)和gif格式圖片,不允許抓取其他格式圖片U(O_O)ser-agent: BaiduspiderAllow: .gif$Disallow: /.jpg$Disallow:/ .jpeg$Disallow:/ .png$Disallow: /.bmp$例12. 僅禁止Baiduspider抓取。jpg格式圖片User-ag( ?ヮ?)ent: /Baidus┐(′?`)┌piderDisallow:/ .jpg$robots.txt的寫(xiě)法是否正確可以使用google網(wǎng)站管理員工具后臺測試。
SEO研究協(xié)會(huì )網(wǎng)是國內首家跨部門(mén)、跨行業(yè)、跨(╬?益?)領(lǐng)域,由從事SEO研究、SEO培訓、SEO服務(wù)的個(gè)人和企業(yè)團體自發(fā)組織創(chuàng )建的純SEO技術(shù)研究平臺。


網(wǎng)站二維碼
導航
電話(huà)
短信
咨詢(xún)
地圖
分享