今天我們主要學習一下robots.txt文件的使用和設置方法。
一、認識robots.txt文件
從網站優化和網站安全的方面來說,我們的站點并不是每一個頁面都需要用戶訪問,這就好比即使再好的朋友來到了您的家裡,您也不會将家裡所有的東西都展示給朋友看。那麼怎麼控制搜索引擎蜘蛛抓取網站的範圍呢?這就是我們今天要講的主角——robots.txt文件。
robots.txt文件是搜索引擎來到網站之後訪問的第一文件,robots.txt文件中設置了搜索引擎的抓取範圍。
二、robots.txt文件設置要求
1、robots.txt文件必須放置在網站根目錄;
2、robots.txt文件名必須小寫。
根據上面兩點提示我們查看到絕大部分網站的robots.txt文件,如果出現無法訪問的現象,最大可能就是網站根目錄中沒有此文件。
三、robots.txt文件規則解讀
robots.txt的書寫格式為:<域>:<可選空格><域值><可選空格>
常見的robots.txt指令為:
User-agent: *
DisAllow: /
此指令代表禁止所有的搜索引擎抓取網站的任何部分。此指令常用于站點不想被搜索引擎收錄或者建站初期,當網站結構沒有建設完成的時候,我們是不希望搜索引擎抓取網站任何内容的。
1、User-agent:
用于指定某個搜索引擎蜘蛛,如果使用通配符*代表所有的搜索引擎蜘蛛,如:
User-agent: Baiduspider指的是指定百度蜘蛛;
User-agent: Googlebot 指的是指定谷歌蜘蛛。
2、Disallow: /
代表着禁止抓取網站的某些内容,如“/”後面沒有任何參數代表禁止抓取網站所有内容。我們來學習一下參數後面分别代表的含義:
Disallow: /admin/ 禁止抓取admin目錄下的所有内容;
Disallow: /cgi-bin/*.htm 禁止抓取/cgi-bin目錄下的所有以.htm結尾的文件;
Disallow: /*?* 禁止抓取網站中所有包含問号 (?) 的網址;
Disallow:/ab/adc.html 禁止抓取ab文件夾下面的adc.html文件;
在這裡重點強調一點,Disallow指令有一個比較特殊的地方,Disallow: /代表着禁止抓取,但是Disallow: 代表着允許抓取,如:
User-agent: *
Disallow:
此指令代表允許所有的搜索引擎抓取網站的任何内容。
3、Allow:/
該指令用于允許蜘蛛抓取某些文件。Allow:/指令後面的參數與Disallow指令相同,如:
User-agent: *
Disallow: /a/
Allow: /a/b/
該指令的含義是不允許蜘蛛抓取a目錄下的其他目錄和文件,但是可以抓取a目錄下的b目錄中的内容。
4、$通配符,代表着以某個字符結尾的URL。
User-agent: *
Disallow: /.jpg$
此指令的含義是禁止所有搜索引擎抓取所有.jpg文件。
$指令在效果上有些地方和*是相同的,$指令常見于動态網址,互聯網中應用不是特别廣泛。
Disallow: /.jpg$ 等同于 Disallow: /*.jpg
5、Sitemap:告訴蜘蛛XML網站地圖的位置,格式為:
Sitemap:http://你的域名/sitemap.xml
主流的搜索引擎都會遵守robots文件指令,但是被robots文件禁止抓取的網址還會出現在搜索引擎結果中,這就好比你雖然不告訴我發生了什麼事,但是我從别人那裡知道了你的事情一樣。隻要禁止被抓取的網址在互聯網中存在導入鍊接,搜索引擎就會知道這個網址的存在,有可能被搜索引擎收錄,但是搜索結果标題下方會出現對應的提示:
由于該網站的tobots.txt文件存在限制指令(限制搜索引擎抓取),系統無法提供該頁面的内容。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!