
作者:天津九安特機電工程有限公司 來(lái)源: 天津九安特機電工程有限公司 日期:2026-05-05 09:27:10
基于( ?▽?)網(wǎng)(′?ω?`)站安全與盈利的禁止件的解決因素,站長(cháng)并不希望某些目錄??或頁(yè)面被抓取和收錄,所有搜索比如付費內容、引擎測試階段的訪(fǎng)問(wèn)方法頁(yè)面及復制內容頁(yè)面等。
盡管在網(wǎng)站建設的文為網(wǎng)過(guò)程中,使用 JavaScript、寫(xiě)法Flash 鏈接及Nofollow屬性等都能讓搜索引擎蜘蛛望而卻步,站收??而(°ロ°) !導致頁(yè)面不被收錄。錄后
但在某些情況下搜索引擎是被屏蔽能夠讀取他們的,基于網(wǎng)站排名考慮,禁止件的解決我們建議慎用 JavaScript、所有搜索Flash 鏈接及Nofollow屬性屏蔽收錄。引擎
要確保網(wǎng)站某些目錄或頁(yè)面不被收錄,需要正確使用 robots 文件或Meta Robots?? 標簽來(lái)實(shí)現網(wǎng)站的禁止收錄機制。
1、robots 文件
搜索引擎蜘蛛訪(fǎng)問(wèn)網(wǎng)站時(shí),會(huì )先查看網(wǎng)站根目錄下有沒(méi)有一個(gè)命名為 robots.txt 的純文本文件,它的主要作用是制定搜索引擎抓取或者禁止網(wǎng)站的某些內容。
user-agent:* 適用于(yu)所有蜘蛛
Disalヾ(′ω`)?low:/upload/
Disall??ow: .jpg??$ 禁止抓取(qu)所有.jpg文件
Disallow: *.html 禁止抓取所有html文件
Disallow:/up??load/index.html
Disallow 禁止抓取哪些文件或目錄,Allow 告訴搜索引擎應該抓取哪些頁(yè)面,由(you)于不指ヽ(′▽?zhuān)?ノ定就是允許抓取,所以a??llow單獨寫(xiě)沒(méi)有意義。
2、meta robots標簽
Meta robots 標簽是頁(yè)面 head 部分 meta 標簽的一種,用于指令搜索引擎禁止索引本頁(yè)內容。
最簡(jiǎn)單的 meta robots 標簽格式為:
<meta name=”robots” content=”noi(′▽?zhuān)?)ndex,nofollow”>
效果是禁止所有搜索引擎索引本頁(yè)面,禁止跟蹤本頁(yè)面上(shang)的鏈接。
<meta nam??e=”robots” content=”noindex”>
效果是禁止索引本頁(yè)面(′?`*),但允許蜘蛛跟蹤頁(yè)面上的鏈接,也可以傳遞權???重。
Google、必應、雅虎支持的標簽如下:
Noindex:不要索引本頁(yè)面
Nofollow:不要跟蹤本頁(yè)面上的鏈接
Nosnippet:不要(yao)在搜索結果中顯示摘要??文字
Noarch??ive:不要顯示快照
Noodp:不要使用開(kāi)放目錄中的標題???和描述
百度支??持:Nofollo(╬ ò﹏ó)w和Noarchive
只有禁止索引時(shí),使(shi)用meta robots才有意義。
使用了 noindex meat robots 標簽的頁(yè)面會(huì )被抓取,但不會(huì )被索引,頁(yè)面URL也不會(huì )出現(xian)在搜索結果中(zhong),這一點(diǎn)與 rob??ots 文件不同。
網(wǎng)站去可以不被搜索引擎收錄的,而且是我們自己可以設置的,比如robots文件,就可以實(shí)現
蜘蛛抓取一個(gè)網(wǎng)站的時(shí)候首先會(huì )訪(fǎng)問(wèn)根目錄下面的robots文件,如果文件允許百度蜘蛛抓取網(wǎng)站內容,那么蜘蛛遵守robots規則,抓取網(wǎng)站可以訪(fǎng)問(wèn)的數據;如果不允許蜘蛛抓取文件,那么蜘蛛只能收錄網(wǎng)站首頁(yè),其余內頁(yè)面均不能訪(fǎng)問(wèn)抓取數據。常見(jiàn)的淘寶,就把robots文件寫(xiě)死了,不讓百度抓取內容!
淘寶ro( ???)bots文(wen)件
那么robo???ts文件怎么寫(xiě)的呢?我們一起來(lái)看看
最簡(jiǎn)答的robots文件寫(xiě)法
User-agent:
*Disallow:/
上面這個(gè)文件代表,禁止所有搜索引擎到網(wǎng)站里面抓取數據。*代表所有搜索引擎,Disallow:/代表不允許抓取內容
那么允許所有搜索引擎抓取內容怎么寫(xiě)呢?
User-agent:
*Disallow:
去掉/就可以了
User-agent:
*Disallow:/ab/
這個(gè)指令代表允許所有搜索引擎抓取cd目錄下的文件,不允許抓取ab目錄下的文件
網(wǎng)站ヾ(?■_■)ノ優(yōu)化
robots文件的寫(xiě)法有很多種,大家可以自己去拓展一下,比如不允許抓取flash文件,圖片文件,JS腳本文件等。值得注意的是robots文件區分大小寫(xiě),字母的錯誤寫(xiě)法會(huì )對網(wǎng)站帶來(lái)災難性的后果,比如網(wǎng)站不收錄。還要robots文件是寫(xiě)在txt文件里面的,直接命名好了放在網(wǎng)站根目錄下面。
版權聲明:本文內容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻??,該文觀(guān)點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權,不承擔相關(guān)法律責任。如發(fā)現本站有涉嫌抄襲侵權/違法違規的內容, 請發(fā)送郵件至 [email protected] 舉報,一經(jīng)查實(shí),??本站┐(′?`)┌將立刻刪除。