常见的robots.txt 设置
获取常见的robots.txt 设置

下面是允许任何蜘蛛搜索引擎来爬行,收录网站。每隔30秒爬行一次 。

robots.txt文件设置Crawl-delay注要原因是蜘蛛程序爬的过快,会给服务器照成负担,影响正常的网站展示速度。
最近查看博客大巴 的robots.txt文件发现一个以前从没见到到的设置方式Crawl-delay:100
博客大巴robots.txt文件如下
User-agent: *
Crawl-delay: 100
Disallow: /files/
Disallow: /user/
通过搜索我了解以下内容
Crawl-delay翻译成中文意思是抓取延迟
后面的数值100表示告诉蜘蛛程序,以秒为单位的最低延时。如果crawler频率对您的服务器是一个负担,您可以将这个延时设定为任何您认为恰当的数字,每间隔100s来爬行一次。
这个设置似乎只针对于大站,设置Crawl-delay注要原因是蜘蛛程序爬的过快,会给服务器照成负担,影响正常的网站展示速度。