使用WordPress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,归纳大致有以下几种方法。
最简单的开放写法
不作任何限制,WordPress站内链接结构比较合理,作为一般博客,完全开放就可以了,代码:
User-agent: *
Disallow:
允许所有蜘蛛访问,允许访问所有内容。WordPress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。
最简单的严格写法
User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=
允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。
Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。
最合理的写法
卖瓜的都说自己瓜甜,我也觉得自己的Robots.txt写的最合理
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.lesishu.com/sitemap.xml
允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。
包含sitemap.xml地址(这一项viki中有专门的说明,但Google管理员工具会提示‘检测到无效的 Sitemap 引用’,有效性尚有争议)。
robots.txt其他写法
为避免在搜索引擎中出现重复页面,WordPress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久链接):
Disallow: /page/
#限制抓取WordPress分页
Disallow: /category/*/page/*
#限制抓取分类的分页
Disallow: /tag/
#限制抓取标签页面
Disallow: */trackback/
#限制抓取Trackback内容
Disallow: /category/*
#限制抓取所有分类列表
最后,推荐使用 Google管理员工具,登录后访问“工具 -> 分析 robots.txt”,检查文件有效性。
作者:樂思蜀
原文:WordPress博客robots.txt写法
版权所有,转载时必须以链接形式注明作者和原出处并保留本声明。
暂时用不上,数学老师说看贴回贴,顶下人家是好孩子........水平把俺限制在Z-blog
谢谢分享:-)
偶也暂时用不上.不过每次看人家的文章总得或多或少的做个评论吧
正准备用这个博客...
不过感觉主题方面有点不好入手.
我一直在用呢,这个东西很简单的,用一次就明白了
[...] 作者:樂思蜀 原文:WordPress博客robots.txt写法 [...]
不错了,这个还从来没有认真研究过呢!
卖瓜的都说自己瓜甜,我也觉得自己的Robots.txt写的最合理
非常受用。感谢!
请问 Disallow: /category/*/* #限制抓取分类的分页 有什么好处?
针对全文输出,避免重复页面;使用more可以不禁止。而且分页没多大用处,索引的很少的。
不错,正在学习中
一般都是空白的
卖瓜的都说自己瓜甜,我也觉得自己的Robots.txt写的最合理
你忽略了一个最重要的,你的Robots.txt写错了 文件名应该是robots.txt小写的,你写成大写搜索引擎不会理会你里面写的什么内容的
学习当中,受教了。。。。。。
感谢分享,看过很多类似的文章,感觉都很有道理。就像博主说的:卖瓜的都说自己瓜甜,还是要靠自己摸索,领悟,这只是一个参考而已。
差不多,要有的东西真不能少呀。
写法挺多的,要注意啊
受教了,主要是想不让搜索引擎收录含wp-的文件和目录
SEO精通其实挺难的
真好!
正需要呢
这个写的好,要不后台也被抓去了,里面全是英文,不友好。
这个写法要学习