您現在所在位置: 主頁(yè) > APP開(kāi)發(fā)
robots.txt協(xié)議怎么寫(xiě),有什么作用?
更新時(shí)間:2026-05-05 02:00:12
robots.txt是議寫(xiě)你對搜索引擎制定的一個(gè)如何索引你的網(wǎng)站的規則。通過(guò)該文件,作用搜索引擎就可以知道在你的議寫(xiě)網(wǎng)站中哪些文件是可以被索引的,哪些文件是作用被拒絕索引的,我們就可以很方便地控制搜索索引網(wǎng)站內容了。議寫(xiě)
第一:什么是作用robots.??txt?
這是一個(gè)文本文件,是議寫(xiě)搜索引擎爬行網(wǎng)頁(yè)要查看的第一個(gè)文件,你可以告訴搜索引擎哪些文件可以被查看(′ω`*),作用哪些禁止。議寫(xiě)當搜索機器人(也叫搜索蜘蛛)訪(fǎng)問(wèn)一個(gè)站點(diǎn)時(shí),(′▽?zhuān)?作用它首先會(huì )檢查根目錄是議寫(xiě)否存在robots.txt,如果有就確定抓取范(′ω`*)圍,作用沒(méi)有就按鏈接順序抓取。議寫(xiě)
第二:robots.txt有什么用為何需要用robots.txt這個(gè)文件來(lái)告訴搜索機器人不要爬行我們的作用部分網(wǎng)頁(yè),比如:后臺管理文件、議寫(xiě)程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。說(shuō)到底了,這些頁(yè)面或文件被搜索引擎收錄了??,用戶(hù)也看不了,多數需要口令才能進(jìn)入或是數據文件。既然這樣,又讓搜索機器人爬行的話(huà),就浪費了服務(wù)器資源,增加了服務(wù)器的壓力,因此我們可以用robots.tヽ(′ー`)ノxt(′?`*)告訴機器人集中注意力去收錄我們的文章頁(yè)面。增強用戶(hù)體驗。
1,用r(′;ω;`)obots屏蔽網(wǎng)站重復(/ω\)頁(yè)
很多網(wǎng)站一個(gè)內容提供多種瀏覽版本,雖然很方便用戶(hù)卻對蜘蛛造成了困難,因為它分不清那個(gè)是主,那個(gè)是次??,一旦讓它認ヽ(′ー`)ノ為你在惡意重復,你就慘了。
User-age┐(′?`)┌nt: *
Disallow: /sitemap/ (禁止蜘蛛抓取 文本網(wǎng)頁(yè))
2,用rヽ(′?`)ノobots保護網(wǎng)站安全
很多人納??悶了,robots怎么還和網(wǎng)站安??全有關(guān)系了?其實(shí)關(guān)系還很大,不少低級黑客就是通過(guò)搜索默認后臺登陸,以達到入侵網(wǎng)站的目標。
User-agent: *
Disallow: /a??d(′?ω?`)min/ (禁止蜘蛛抓取admin目錄下所(′▽?zhuān)?(suo)有文件)
3,防止盜鏈
一般盜鏈也就幾個(gè)人(ren),可是一旦被搜索引擎&ldquo(╯°□°)╯︵ ┻━┻;盜鏈”那家伙你100M寬帶也吃不消(╯°□°)╯,如果你做的不是圖片網(wǎng)站,又不想被搜索引擎“盜鏈”你的網(wǎng)站圖片。
User-agent: *
Disallow:(?_?;) .jpg$
4,提交網(wǎng)站地圖現在做優(yōu)化的都知道做網(wǎng)站地圖了,可是卻沒(méi)幾個(gè)會(huì )提交的,絕大多數人是干脆在網(wǎng)頁(yè)上加個(gè)鏈接,其實(shí)robots是支持這個(gè)功能的
Sitemap:http://www.seod(??ヮ?)?*:???ongguan.cn/sitem??aps/sitemaps_1.xml
5(′-ι_-`),禁止某二級域名的抓(??ヮ?)?*:???取
一些網(wǎng)站會(huì )對VI??P會(huì )員提供一些特殊服務(wù),卻又不(?????)想這個(gè)服務(wù)被搜索引擎檢索到。
User-agent: *Disallow: /
以上五招robots足以讓你對搜索引擎(′▽?zhuān)?蜘蛛掌控能力提升不少,就像百度說(shuō)的:我們和搜索引擎應該是朋友,增加一些溝通,才能消除一些隔膜。
第三:ro??bots.txt基本語(yǔ)法
1、robots.txt的關(guān)鍵語(yǔ)法
a.User-agent: 應用下文規則的漫游器,比如Googlebot,Baiduspider等。
b.Disallow: 要攔截的網(wǎng)址,不允許機器人訪(fǎng)問(wèn)。
c.Allow: 允許訪(fǎng)(′▽?zhuān)?問(wèn)的網(wǎng)址
d.“*” : 通配符—匹配0或多個(gè)任意字符。
e.&l??dquo(╯‵□′)╯;$” : 匹配行結束符。
f.“#” : 注釋—說(shuō)明性的文字,不寫(xiě)也可。
g.Go???oglebo??t: 谷歌搜索機器人(也叫搜索蜘蛛)。
h.Baiduspider: 百度搜索機器人(也叫搜索蜘蛛)???。
i.目錄、網(wǎng)?址的寫(xiě)法:都以以正斜線(xiàn) (/) 開(kāi)頭。
如
Disallow:/
Disallow:/images/( ?ω?)
Disallow:/admin/
Disallo(╯°□°)╯︵ ┻━┻w:/css/
2、r(′?ω?`)o?bots.txt的具??體用法
a.允許所有的robot訪(fǎng)問(wèn)
User-agent: *
Disall???ow:
或者
User-agen??t: *
Allow: /
或者建一個(gè)空文件&(′?`*)rdquo;robots.txt”即可。
b.僅禁止某個(gè)機器人訪(fǎng)問(wèn)您的網(wǎng)站,如Baiduspider。
User-agent: Baiduspider
Disallow: /
c.僅允許某個(gè)機器人訪(fǎng)問(wèn)您的網(wǎng)站,如Baiduspid(°□°)er。
User-agent: BaiduspiderDisallow:
User-agent: *
Disallow: /
d.禁止訪(fǎng)問(wèn)特定目錄
User-agent: *Disallow: /admin/
Disallow: /css/
Disallow:
要攔截???對所??有包含問(wèn)號 (?) 的網(wǎng)址的訪(fǎng)問(wèn)(具體地說(shuō),這(zhe)種網(wǎng)址以??你的域名開(kāi)頭、后接任意字符串,然后(′?ω?`)接問(wèn)號,而后又接任意字符串),使用以下內容:
User-agent: Googlebot
Disallow: /*?
要指定與某個(gè)網(wǎng)址的結尾字符相匹配,就用 $。例如,要攔截以 .xls 結尾的所有網(wǎng)址,就用以下內容:
Disallow: /*.xls$
你可以將此模式匹配與?? Allow 指令配合使用。例如,如果 ? 代表一個(gè)會(huì )話(huà) ID,那么你可能??希望排除包含 ? 的所有網(wǎng)址,以確保 Googlebot 不會(huì )抓取重復網(wǎng)頁(yè)。但是以 ? 結尾的網(wǎng)址可能是(′▽?zhuān)?你希望包含在內的網(wǎng)頁(yè)的版本。在此情況下,你可以對你的 robots.tヽ(′▽?zhuān)?ノxt 文件進(jìn)行如下設置:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: /*? 指令會(huì )ヾ(′▽?zhuān)??(hui)阻止包含 ? 的所有網(wǎng)址(具體地說(shuō),它將攔截所有以您的域名開(kāi)頭、后接任意字符串,然后接問(wèn)號,而后又接任意字符串的網(wǎng)址)(′?`)。
Allow: /*?$ 指令將(???)允許以 ? 結尾的任何網(wǎng)址(具體地說(shuō),它將允許所有以您的域名開(kāi)頭、后接任意??字符串,然后接 ?,? 之后不ヽ(′▽?zhuān)?ノ接任何字符的網(wǎng)址)。
一般網(wǎng)站查看robots.txt文件的方法是主頁(yè)后面加robots.txt就可以,比如淘寶網(wǎng)的就是http://www.taobao.com/robots.txt??。請注意,僅當你的網(wǎng)ヽ(′ー`)ノ站包含不希望被(bei)搜索引擎收錄的內容時(shí),才需要使用??robots.txt文件。如(ru)果你希望搜索引擎收錄網(wǎng)站上所有內容,就不要建立robots.txt文件。
轉載請注明大寶SE┐(′д`)┌O博客 微信/QQ1044248335

