Robots.txt的標準制作法 |
發布時間:2024-11-28 文章來源:本站 瀏覽次數:264 |
一個網站,能夠有robots.txt,也能夠沒有。但是如果要有,那就必須做的規范,下面就個人經驗來說下robots.txt的制作方法。 robots.txt文件指令包含: Disallow - 告知蜘蛛不要抓取某些文件或目錄。如下面代碼將阻止蜘蛛抓取一切的網站文件: User-agent: * Disallow: / Allow - 告知蜘蛛應該抓取某些文件。Allow和Disallow配合運用,能夠告知蜘蛛某個目錄下,大部分都不抓取,只抓取一部分。如下面代碼將使蜘蛛不抓取ab目錄下其他文件,而只抓取其中cd下的文件: User-agent: * Disallow: /ab/ Allow: /ab/cd $通配符 - 匹配URL結束的字符。如下面代碼將答應蜘蛛拜訪以.htm為后綴的URL: User-agent: * Allow: .htm$ *通配符 - 告知蜘蛛匹配任意一段字符。如下面一段代碼將制止蜘蛛抓取一切htm文件: User-agent: * Disallow: /*.htm Sitemaps位置 - 告知蜘蛛你的網站地圖在哪里,格局為: Sitemap: 三家都支撐的Meta標簽包含: NOINDEX - 告知蜘蛛不要索引某個網頁。 NOFOLLOW - 告知蜘蛛不要跟蹤網頁上的鏈接。 NOSNIPPET - 告知蜘蛛不要在查找成果中顯現闡明文字。 NOARCHIVE - 告知蜘蛛不要顯現快照。 NOODP - 告知蜘蛛不要運用開放目錄中的標題和闡明。 上面這些記載或標簽,現在三家都共同支撐。其中通配符好像曾經雅虎微軟并不支撐。百度現在也支撐Disallow,Allow及兩種通配符。Meta標簽我沒有找到百度是否支撐的官方闡明。 只要Google支撐的Meta標簽有: UNAVAILABLE_AFTER - 告知蜘蛛網頁什么時分過期。在這個日期之后,不該該再出現在查找成果中。 NOIMAGEINDEX - 告知蜘蛛不要索引頁面上的圖片。 NOTRANSLATE - 告知蜘蛛不要翻譯頁面內容。 雅虎還支撐Meta標簽: Crawl-Delay - 答應蜘蛛延時抓取的頻率。 NOYDIR - 和NOODP標簽類似,但是指雅虎目錄,而不是開放目錄。 Robots-nocontent - 告知蜘蛛被標注的部分html不是網頁內容的一部分,或許換個角度,告知蜘蛛哪些部分是頁面的主要內容(想被檢索的內容)。 MSN還支撐Meta標簽: Crawl-Delay 別的提醒我們留意的是,回來404過錯的時分,意味著答應蜘蛛抓取一切內容。但抓取robots.txt文件時卻產生超時之類的過錯,或許導致查找引擎不錄入網站,因為蜘蛛不知道robots.txt文件是否存在或許里邊有什么內容,這與確認文件不存在是不一樣的。總之,正確制作 robots.txt 文件能夠幫助網站更好地與搜索引擎配合,實現內容合理展示與隱私、資源等方面的有效管理。 |