常见的robots.txt 设置

获取常见的robots.txt 设置

下面是允许任何蜘蛛搜索引擎来爬行，收录网站。每隔30秒爬行一次。

robots.txt文件设置Crawl-delay注要原因是蜘蛛程序爬的过快，会给服务器照成负担，影响正常的网站展示速度。
最近查看博客大巴的robots.txt文件发现一个以前从没见到到的设置方式Crawl-delay：100
博客大巴robots.txt文件如下
User-agent: *
Crawl-delay: 100
Disallow: /files/
Disallow: /user/
通过搜索我了解以下内容
Crawl-delay翻译成中文意思是抓取延迟
后面的数值100表示告诉蜘蛛程序，以秒为单位的最低延时。如果crawler频率对您的服务器是一个负担，您可以将这个延时设定为任何您认为恰当的数字，每间隔100s来爬行一次。
这个设置似乎只针对于大站，设置Crawl-delay注要原因是蜘蛛程序爬的过快，会给服务器照成负担，影响正常的网站展示速度。

发表评论 取消回复

发表评论取消回复