做SEO不得不知道的robots文件

發布時間：2025-10-11 點擊：12

有關robots文件潛規則：
1、spider名字的大小寫問題
大多數搜索引擎的spider在讀取user-agent值的時候都是忽略大小寫，既googlebot和googlebot應該都能被google識別。但是，我在學習淘寶seo的時候也發現，或許為了保險起見，淘寶的工作人員在自己的“/robots.txt”里面分別寫了“user-agent: baiduspider”和“user-agent: baiduspider”兩條。(參見：http://www.taobao.com/robots.txt)
2、不允許出現多條user-agent的記錄
一份“/robots.txt”文檔中不允許出現多條包含“user-agent: *”的記錄(但允許沒有此記錄)。
3、allow和disallow的順序
大部分情況下，想要兼容所有的機器人，就應當將allow指令放在disallow指令的前面，例如：
allow: /a/b.html
disallow: /a/
這會阻止對”/a/”內除了”/a/b.html”以外一切內容的檢索，因為后者是優先匹配成功的。雖然對于google和百度來說，先后順序并不重要。但是不排除會導致其他搜索引擎出現抓取問題。
4、allow與disallow的角力
如果allow指令中的地址同disallow指令中的地址相比具有相同或更多字符(意味著allow指令所描述的地址更“深”、更“具體”)的話，雖然disallow指令也能匹配，但allow指令仍然會“獲勝”(這樣就達到開放子文件夾的目的了，同時沒被allow的部分依然不會被檢索)。
舉個例子吧(假設和順序無關)
disallow:/a/b
allow:/a
這樣就是允許除b以外的所有a
disallow:/a
allow:/a/b
這樣就是禁止除b以外的所有a
反斜杠“/”的意義
反斜杠“/”表示禁止搜索引擎進入該目錄。
user-agent: spider
disallow: /a
對這樣的記錄機器人該怎么反應?按照res標準，機器人會將名為“a”的文件和名為“a”的目錄都disallow。當然，比較符合邏輯切清晰的寫法是使用“/”來標識所聲明的路徑：
disallow: /a/
注意不要忘記“a”前面的“/”
根據“/”的意義，對于只允許某搜索引擎，有些robots.txt會這樣寫
user-agent: baiduspider
disallow:
user-agent: *
disallow: /
這樣用百度的robots工具測試也是ok的,但從百度自家產品，百度知道的robots來看，更多的是寫成
user-agent: baiduspider
allow: ?/
user-agent: *
disallow: /
我其實在想，或許“/”正確的表述應該是"進入該目錄"的意思，要不然allow: ?/就不好理解了
在指示行末尾加注的問題
在“/robots.txt”文件中，凡以“#”開頭的行，均被視為注解內容，這和unix中的慣例是一樣的。例如：
disallow: /cgi-bin/ # this bans robots from our cgi-bin
盡量不要在一行的前面出現空格
如“ disallow: /”《很多人非常不小心，空格就沒了》
res標準并未對這種格式予以特別說明，但和上面一個問題一樣，可能導致某些機器人無法正確解讀。
文件目錄區分大小寫(這個或許是困惑大多數人的)
雖然res標準忽略大小寫(case insensitive)，但目錄和文件名卻是大小寫敏感的。所以對于”user-agent”和”disallow”指令，用大小寫都是可以的。但對于所聲明的目錄或文件名卻一定要注意大小寫的問題。例如：
disallow: /abc.htm
會攔截“http://www.example.com/abc.htm”
卻會允許http://www.example.com/abc.htm
所以在iis服務器可能出現的諸多大小寫目錄問題，可以通過此方法得到圓滿解決。
如果頁面中包含了多個同類型meta標簽，spider會累加內容取值
對于下面兩條語句來說：
<meta name=”robots” content=”noindex” />
<meta name=”robots” content=”nofollow” />
搜索引擎將會理解成：
<meta name=”robots” content=”noindex, nofollow” />
當內容取值沖突的時候，google和百度等大多數搜索引擎會采納限制性最強的參數
例如，如果頁面中包含如下meta標簽：
<meta name=”robots” content=”noindex” />
<meta name=”robots” content=”index” />
spider會服從noindex的取值。
如果你既用了robots.txt文件又用了robots meta標簽
當二者出現沖突，googlebot會服從其中限制較嚴的規則
如果你在robots.txt中阻止了對一個頁面的檢索，googlebot永遠不會爬到這個頁面，因此也根本不會讀到這個頁面上的meta標簽。如果你在robots.txt里面允許了對一個頁面的檢索，卻在meta標簽中禁止了這一行為，googlebot會到達這個頁面，在讀到meta標簽后終止進一步的檢索行為。
robots文件是我們跟搜索引擎對話的渠道，而且通過設置，我們能夠告訴搜索引擎蜘蛛哪些可以抓取，哪些不可以抓取。

對于網站SEO優化的深刻理解
如何建立一個屬于自己的網站？
echarts坐標和值不符合問題
用香港云服務器搭建網站好不好？
手機app設計需要注意什么問題？
網站建設中常見的錯誤
泰州官網制作：做一個官方大概需要多長時間呢？
軟件產品扁平化設計雜談

上一篇：網站設計中常見幾個坑你中招了嗎？

下一篇：網站建設應該注意什么?

japanese少妇高潮潮喷 -精品国产AV一区二区三区-麻豆av一区二区三区久久-国产精品无码专区

做SEO不得不知道的robots文件