tft每日頭條

 > 生活

 > robots txt文件被限制

robots txt文件被限制

生活 更新时间:2024-12-27 00:00:16

今天我們主要學習一下robots.txt文件的使用和設置方法。

一、認識robots.txt文件

從網站優化和網站安全的方面來說,我們的站點并不是每一個頁面都需要用戶訪問,這就好比即使再好的朋友來到了您的家裡,您也不會将家裡所有的東西都展示給朋友看。那麼怎麼控制搜索引擎蜘蛛抓取網站的範圍呢?這就是我們今天要講的主角——robots.txt文件。

robots.txt文件是搜索引擎來到網站之後訪問的第一文件,robots.txt文件中設置了搜索引擎的抓取範圍。

robots txt文件被限制(禁止抓取機制robots.txt設置方法及注意事項)1

二、robots.txt文件設置要求

1、robots.txt文件必須放置在網站根目錄;

2、robots.txt文件名必須小寫。

根據上面兩點提示我們查看到絕大部分網站的robots.txt文件,如果出現無法訪問的現象,最大可能就是網站根目錄中沒有此文件。

三、robots.txt文件規則解讀

robots.txt的書寫格式為:<域>:<可選空格><域值><可選空格>

常見的robots.txt指令為:

User-agent: *

DisAllow: /

此指令代表禁止所有的搜索引擎抓取網站的任何部分。此指令常用于站點不想被搜索引擎收錄或者建站初期,當網站結構沒有建設完成的時候,我們是不希望搜索引擎抓取網站任何内容的。

1、User-agent:

用于指定某個搜索引擎蜘蛛,如果使用通配符*代表所有的搜索引擎蜘蛛,如:

User-agent: Baiduspider指的是指定百度蜘蛛;

User-agent: Googlebot 指的是指定谷歌蜘蛛。

2、Disallow: /

代表着禁止抓取網站的某些内容,如“/”後面沒有任何參數代表禁止抓取網站所有内容。我們來學習一下參數後面分别代表的含義:

Disallow: /admin/ 禁止抓取admin目錄下的所有内容;

Disallow: /cgi-bin/*.htm 禁止抓取/cgi-bin目錄下的所有以.htm結尾的文件;

Disallow: /*?* 禁止抓取網站中所有包含問号 (?) 的網址;

Disallow:/ab/adc.html 禁止抓取ab文件夾下面的adc.html文件;

在這裡重點強調一點,Disallow指令有一個比較特殊的地方,Disallow: /代表着禁止抓取,但是Disallow: 代表着允許抓取,如:

User-agent: *

Disallow:

此指令代表允許所有的搜索引擎抓取網站的任何内容。

3、Allow:/

該指令用于允許蜘蛛抓取某些文件。Allow:/指令後面的參數與Disallow指令相同,如:

User-agent: *

Disallow: /a/

Allow: /a/b/

該指令的含義是不允許蜘蛛抓取a目錄下的其他目錄和文件,但是可以抓取a目錄下的b目錄中的内容。

4、$通配符,代表着以某個字符結尾的URL。

User-agent: *

Disallow: /.jpg$

此指令的含義是禁止所有搜索引擎抓取所有.jpg文件。

$指令在效果上有些地方和*是相同的,$指令常見于動态網址,互聯網中應用不是特别廣泛。

Disallow: /.jpg$ 等同于 Disallow: /*.jpg

5、Sitemap:告訴蜘蛛XML網站地圖的位置,格式為:

Sitemap:http://你的域名/sitemap.xml

主流的搜索引擎都會遵守robots文件指令,但是被robots文件禁止抓取的網址還會出現在搜索引擎結果中,這就好比你雖然不告訴我發生了什麼事,但是我從别人那裡知道了你的事情一樣。隻要禁止被抓取的網址在互聯網中存在導入鍊接,搜索引擎就會知道這個網址的存在,有可能被搜索引擎收錄,但是搜索結果标題下方會出現對應的提示:

由于該網站的tobots.txt文件存在限制指令(限制搜索引擎抓取),系統無法提供該頁面的内容。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved