WordPress网站的Robots协议应该怎么写

Joe 于 2013-12-15 15:15:31 发布至电脑其他累计 2544 次阅读

相信许多博主用的是Wordpress建站程序，Wordpress确实是一个非常强大的博客建设程序，前些天在网上了解到了一些Robots知识，接下来与大家分享一下Wordpress的Robots协议到底该怎么写才好？

我们先来了解一下什么是robots协议，Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。当然robots协议可以说是一个君子协议，前不久百度起诉360未经授权大量抓取百度内容，因为百度之前忍痛遵守robots协议没有抓取淘宝内容，自然对360这种真流氓行径表示愤怒哈。

下面举个例子，如下：

User-agent: * #开始配置所有引擎
Disallow: /comments/feed/ #禁止所有引擎抓取网站comments目录下的feed目录
Disallow: /*/trackback #禁止所有引擎抓取网站包含和的目录下的trackback目录（包含子目录） Disallow: /wp-admin/ #禁止所有引擎抓取网站wp-admin目录
Disallow: /wp-includes/ #禁止所有引擎抓取网站wp-includes目录
Disallow: /wp-content/plugins/ #禁止所有引擎抓取网站wp-content目录下的plugins目录
Disallow: /wp-content/themes/ #禁止所有引擎抓取网站wp-content目录下的themes目录
Disallow: /*?replytocom= #禁止所有引擎抓取网站所有参数以replytocom=开头的动态页面
Disallow: /*/comment-page-* #禁止所有引擎抓取网站包含和的目录下的前缀为comment-page-并且包含的目录（包含子目录）
Disallow: /?r=* #禁止所有引擎抓取网站以?开头的并且参数前缀为r=并且包含的动态页面
Disallow: /?p=* #禁止所有引擎抓取网站以?开头的并且参数前缀为p=并且包含的动态页面
Disallow: /page/ #禁止所有引擎抓取网站page目录

当然，这份协议并不是最佳设置，这样的东西都是需要根据个人的习惯与差异进行一些修改的，一般来说个人配置都是一个协议允许所有爬虫（多多益善嘛），接着就开始部署不希望抓取的目录，最后就是指明自己的网站地图。

各位有兴趣也可以参考一下大网站或者一些名博的robots协议写法，为自己的网站设计一份合适的协议。robots查看方法：比如百度，直接在百度网址后面加上robots.txt，即http://www.baidu.com/robots.txt

1. 本站部分资源来源于网友投稿，若涉及您的权益请及时联系处理！
2. 本站资源文章仅供于学习与研究交流，请勿用于商业用途！
3. 本站站长QQ：350178646，交流群：IT互联内部交流群！

分享到：

相关推荐