background image

详尽的网站

robots 协议书写方法--SEO 必知

 。什么是 robots

1. robot 是指定 spider 在网站抓取范围的协议。
2. spider 在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt 的纯
文本文件,有的话就会根据里面的协议进行抓取,否则全部抓取。

 robots.txt 放置的位置

放在网站的根目录下面。
robots.txt 放在 网站 的根 目录 。根 目录 根据 空间 商提 供的 默认 的目 录。 常见 的根 目录

/www/ 、Web/、web、wwwroot 等。比如华夏名网的根目录是 www/

 。常用的语法

三个语法:

Disallow / (空格、斜杠)  Disallow:抓取空白内容。

Allow: / 允许抓取目录。

*:匹配 或多个任意字符    $: 匹配行结束符   #:不匹配

写法举例:

 User-agent: Baiduspider

              Disallow: /dede
              Allow: /dede/abc
注意斜杠:

  Disallow: /dede   目录或者路径

           Disallow: /dede/  目录

禁止百度抓取任何内容,允许其他搜索引擎抓取

    

User-agent: Baiduspider
Disallow: /

禁止

google 抓取任何内容,允许其他搜索引擎抓取

User-agent: Googleboot
Disallow: /

禁止所有的搜索引擎抓取。
User-agent: *
Disallow: /

禁止多个搜索引擎抓取: