robots.txt文件Disallow与Allow行的顺序是有意义的

2019-03-18    来源:Bruce 只言片语

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

在对 robots.txt 文件设置记录时,要特别注意 Disallow 与 Allow 行的顺序是有意义的,spider 会根据第一个匹配成功的 Allow 或 Disallow 行确定是否访问某个URL。

举例说明:

允许 spider 访问 /cgi-bin/ 目录下的包含 see 的文件夹或URL

User-agent: *

Allow: /cgi-bin/see

Disallow: /cgi-bin/

如果Allow 和 Disallow 的顺序调换一下:

User-agent: *

Disallow: /cgi-bin/

Allow: /cgi-bin/see

spider 就无法访问到 /cgi-bin/ 目录下的包含 see 的文件夹或URL,因为第一个 Disallow: /cgi-bin/ 已经匹配成功。

关于 Disallow 和 Allow 记录写法

Disallow 和 Allow 记录后面可以是一条完整的路径,也可以是路径的非空前缀。例如 “Disallow: /help” 禁止 spider 访问/help.html、/helpabc.html、/help/index.html;而 “Disallow:/help/” 则允许 spider 访问 /help.html、/helpabc.html,不能访问 /help/index.html。

文章来源:Bruce 只言片语

标签: robots.txt文件 Disallow Allow 

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:谈谈百度知道与seo

下一篇:没有了博客 SEOER该如何生存?