详尽的网站
robots 协议书写方法--SEO 必知
一
。什么是 robots
1. robot 是指定 spider 在网站抓取范围的协议。
2. spider 在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt 的纯
文本文件,有的话就会根据里面的协议进行抓取,否则全部抓取。
二
。robots.txt 放置的位置
放在网站的根目录下面。
robots.txt 放在 网站 的根 目录 。根 目录 根据 空间 商提 供的 默认 的目 录。 常见 的根 目录
有
/www/ 、Web/、web、wwwroot 等。比如华夏名网的根目录是 www/
三
。常用的语法
三个语法:
Disallow: / (空格、斜杠) Disallow:抓取空白内容。
Allow: / 允许抓取目录。
*:匹配 0 或多个任意字符 $: 匹配行结束符 #:不匹配
写法举例:
User-agent: Baiduspider
Disallow: /dede
Allow: /dede/abc
注意斜杠:
Disallow: /dede 目录或者路径
Disallow: /dede/ 目录
禁止百度抓取任何内容,允许其他搜索引擎抓取
User-agent: Baiduspider
Disallow: /
禁止
google 抓取任何内容,允许其他搜索引擎抓取
User-agent: Googleboot
Disallow: /
禁止所有的搜索引擎抓取。
User-agent: *
Disallow: /
禁止多个搜索引擎抓取: