[點(diǎn)晴永久免費(fèi)OA]robots.txt的作用以及規(guī)范寫法
Robots.txt文件的作用 一般來(lái)說(shuō)出于安全的考慮,在網(wǎng)站seo優(yōu)化時(shí)寫入robots.txt文件,實(shí)際上就是告訴搜索引擎蜘蛛,網(wǎng)站上哪些內(nèi)容允許抓取,哪些內(nèi)容不允許抓取,這樣做可以提高搜索引擎的抓取效率,增加搜索引擎對(duì)網(wǎng)站的友好度。 robots.txt文件的規(guī)范寫法 文件中的記錄通過(guò)空行分開,以CR、CR/NL、or NL作為結(jié)束符。robots.txt文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow和Allow行,詳細(xì)情況如下: User-agent: 用于描述搜索引擎蜘蛛的名字,在"Robots.txt"文件中,如果有多條User-agent記錄說(shuō)明有多個(gè)搜索引擎蜘蛛會(huì)受到該協(xié)議的限制,對(duì)該文件來(lái)說(shuō),至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*,則該協(xié)議對(duì)任何搜索引擎蜘蛛均有效,在"Robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。 Disallow: 用于描述不希望被訪問到的一個(gè)URL,這個(gè)URL可以是一條完整的路徑,也可以是部分的,任何以Disallow開頭的URL均不會(huì)被Robot訪問到。 例如,”Disallow:/help”是指禁止搜索引擎蜘蛛抓取/help.html和/help/index.html;而”Disallow:/help/”則允許搜索引擎蜘蛛抓取/help.html,不能抓取/help/index.html。 Allow: 用于描述希望被訪問的一組URL,與Disallow項(xiàng)相似,這個(gè)值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項(xiàng)的值開頭的URL是允許robot訪問的。 例如,”Allow:/hibaidu”允許搜索引擎蜘蛛抓取/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個(gè)網(wǎng)站的所有URL默認(rèn)是Allow的,所以Allow通常與Disallow搭配使用,實(shí)現(xiàn)允許訪問一部分網(wǎng)頁(yè)同時(shí)禁止訪問其它所有URL的功能。 注意:Disallow與Allow行的順序是有意義的,搜索引擎蜘蛛會(huì)根據(jù)第一個(gè)匹配成功的Allow或Disallow行確定是否訪問某個(gè)URL。 使用”*”和”$”: Baiduspider支持使用通配符”*”和”$”來(lái)模糊匹配url?!?”匹配行結(jié)束符?!?”匹配0或多個(gè)任意字符。 robots.txt文件用法舉例 1,允許所有的robot訪問 User-agent:*Allow:/或者User-agent:*Disallow: 2,禁止所有搜索引擎訪問網(wǎng)站的任何部分 User-agent:* Disallow:/ 3,僅禁止Baiduspider訪問 User-agent:Baiduspider Disallow:/ 4,僅允許Baiduspider訪問您的網(wǎng)站 User-agent:Baiduspider Disallow: 5,禁止spider訪問特定目錄 User-agent:* Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/~joe/ 6,允許訪問特定目錄中的部分url User-agent:* Allow:/cgi-bin/see Allow:/tmp/hi Allow:/~joe/look Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/~joe/ 7,使用”*”限制訪問url 禁止訪問/cgi-bin/目錄下的所有以”.htm”為后綴的URL(包含子目錄)。 User-agent:* Disallow:/cgi-bin/*.htm 8,使用”$”限制訪問url 僅允許訪問以”.htm”為后綴的URL。 User-agent:* Allow:.htm$ Disallow:/ 9,禁止訪問網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面 User-agent:* Disallow:/*?* 10,禁止Baiduspider抓取網(wǎng)站上所有圖片 僅允許抓取網(wǎng)頁(yè),禁止抓取任何圖片。 User-agent:Baiduspider Disallow:.jpg$ Disallow:.jpeg$ Disallow:.gif$ Disallow:.png$ Disallow:.bmp$ 11,僅允許Baiduspider抓取網(wǎng)頁(yè)和.gif格式圖片 允許抓取網(wǎng)頁(yè)和gif格式圖片,不允許抓取其他格式圖片 User-agent:Baiduspider Allow:.gif$ Disallow:.jpg$ Disallow:.jpeg$ Disallow:.png$ Disallow:.bmp$ 12,僅禁止Baiduspider抓取.jpg格式圖片 User-agent:Baiduspider Disallow:.jpg$ 注意:robots.txt是有分大小寫的,默認(rèn)文件名全小寫,規(guī)則里面要注意區(qū)分大小寫 13,在robots.txt中聲明你的sitemap文件 在robots.txt加入如下的一行文字: Sitemap:http://www.abc.com/sitemap.xml(替換自己的網(wǎng)站域名) 該文章在 2021/10/19 10:41:28 編輯過(guò) |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |