
一般來(lái)說(shuō),網(wǎng)站或多或少都存在一些對排名沒(méi)意義甚至有害的頁(yè)面。對于SEO技術(shù)站長(cháng)來(lái)說(shuō)是不希望被搜索引擎檢索的。而robots.txt文件(T_T)則承擔了站長(cháng)這個(gè)意愿的表達功能。那,什么是robots?網(wǎng)站的robots怎么寫(xiě)?
什么是robots?當蜘蛛訪(fǎng)問(wèn)網(wǎng)站會(huì )優(yōu)先抓取robots.txt??,遵(′ω`)循(╥_╥)站長(cháng)配置的規則不再抓取不利于SEO的內容。
robots文件(jian)往往放置于根目錄下
Disallow:該項的值用于描述不希望被訪(fǎng)問(wèn)的一組URL
Allow:該項的值用于描述希望被訪(fǎng)問(wèn)的一組URL
User-agent:該項的值用于描述搜索引擎robot的名字
例如:
User-Agent:YisouSpider // 配置Yi??souSpider
Disallow: / // 不允許YisouSpider抓取網(wǎng)站任何內容
User-Agent:* // 配置所有搜索引擎
更多
Disallow: /abc //??禁止抓取含abc目錄及子(′?ω?`)目錄的(de)所ヽ(′ー`)ノ有頁(yè)面
注意:有(you)些地方注釋為“禁止抓取abc目錄及子目錄中的內容”百度官方有舉例,??"Disallow:/help"禁止robot訪(fǎng)問(wèn)/help.html、/he?????lpabc.html、/help/index.html
Disallow: /abc/ //禁止抓取含abc目錄的所有頁(yè)面
百度官方有舉例,"Disallow:( ???)/help/"則允許r(′?`)obot訪(fǎng)問(wèn)/help.html、/helpabc.html,不能訪(fǎng)問(wèn)/help/index.html。
"*" 匹配0或多個(gè)任意字符
"$" 匹配行結束符。
舉例:
Disallo(′?`*)w: /*?* //禁止抓取網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面
Disallow: /*.htm$ // 禁止抓取所有以.htm為后綴的URL頁(yè)面 /abc.htm/index 不匹配
區別于Disallow: /*(′_ゝ`).htm // /abc.htm/index 也匹配
什么是??robots?網(wǎng)站哪些內容不建議被抓取
還有一點(diǎn)值得注意的事,有很多站長(cháng)反饋說(shuō)百度不遵循robots.t??xt協(xié)議,抓取不??該抓取的內容。思享也??感覺(jué)不是很靠譜,所以也可以考慮在一些頁(yè)面設置meta nam┐(′д`)┌e="robots"
版權聲明:本文內容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻,該(????)文觀(guān)(guan)點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權,不承擔相關(guān)法律責任。如發(fā)現本站有涉嫌抄襲侵權/違法違規的內容, 請發(fā)送郵件至 [email protected] 舉報,一經(jīng)查實(shí),本站將立刻刪除。