<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>樂思蜀SEO博客 &#187; Robots</title>
	<atom:link href="http://www.lesishu.com/tag/robots/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.lesishu.com</link>
	<description>樂思蜀的博客，包括但不限于SEO&#38;SEM研究、应用中的心得体会，互联网、搜索引擎观察与思考。</description>
	<lastBuildDate>Fri, 09 Jul 2010 17:11:12 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
	<atom:link rel='hub' href='http://www.lesishu.com/?pushpress=hub'/>
		<item>
		<title>WordPress博客robots.txt写法</title>
		<link>http://www.lesishu.com/articles/wordpress-robots/</link>
		<comments>http://www.lesishu.com/articles/wordpress-robots/#comments</comments>
		<pubDate>Wed, 02 Apr 2008 06:23:02 +0000</pubDate>
		<dc:creator>樂思蜀</dc:creator>
				<category><![CDATA[技术文章整理]]></category>
		<category><![CDATA[Robots]]></category>
		<category><![CDATA[Wordpress]]></category>

		<guid isPermaLink="false">http://www.lesishu.cn/?p=154</guid>
		<description><![CDATA[使用WordPress搭建的博客，利用robots.txt文件限制搜索引擎抓取部分目录及文件，归纳大致有以下几种方法。 最简单的开放写法 不作任何限制，WordPress站内链接结构比较合理，作为一般博客，完全开放就可以了，代码： User-agent: * Disallow: 允许所有蜘蛛访问，允许访问所有内容。WordPress只要模板中链接设计合理，没有需要限制的特殊内容，推荐使用这种写法。 最简单的严格写法 User-agent: * Disallow: /wp-* #Allow: /wp-content/uploads/ Disallow: /*.php$ Disallow: /*.inc$ Disallow: /*.js$ Disallow: /*.css$ Disallow: /?s= 允许所有蜘蛛访问，限制以“wp-”开头的目录及文件，限制抓取.php文件、.inc文件、.js文件、.css文件，限制抓取搜索结果。 Disallow: /wp-* 会连同附件目录一起限制抓取，如果想让搜索引擎抓取附件中的内容，将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。 最合理的写法 卖瓜的都说自己瓜甜，我也觉得自己的Robots.txt写的最合理 User-agent: * Disallow: /wp-admin Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-includes Disallow: /?s= Sitemap: http://www.lesishu.com/sitemap.xml 允许所有搜索引擎抓取，逐一列举需要限制的目录，限制抓取搜索结果。 包含sitemap.xml地址（这一项viki中有专门的说明，但Google管理员工具会提示‘检测到无效的 Sitemap 引用’，有效性尚有争议）。 robots.txt其他写法 为避免在搜索引擎中出现重复页面，WordPress玩家自创了很多robots写法，列举一些常用的，作为参考（适用于伪静态方式的永久链接）： Disallow: /page/ [...]]]></description>
			<content:encoded><![CDATA[<p>使用WordPress搭建的博客，利用robots.txt文件限制搜索引擎抓取部分目录及文件，归纳大致有以下几种方法。</p>
<p><strong>最简单的开放写法</strong></p>
<p>不作任何限制，WordPress站内链接结构比较合理，作为一般博客，完全开放就可以了，代码：</p>
<blockquote><p>User-agent: *<br />
Disallow:</p></blockquote>
<p>允许所有蜘蛛访问，允许访问所有内容。WordPress只要模板中链接设计合理，没有需要限制的特殊内容，推荐使用这种写法。</p>
<p><strong>最简单的严格写法</strong></p>
<blockquote><p>User-agent: *<br />
Disallow: /wp-*<br />
#Allow: /wp-content/uploads/<br />
Disallow: /*.php$<br />
Disallow: /*.inc$<br />
Disallow: /*.js$<br />
Disallow: /*.css$<br />
Disallow: /?s=</p></blockquote>
<p>允许所有蜘蛛访问，限制以“wp-”开头的目录及文件，限制抓取.php文件、.inc文件、.js文件、.css文件，限制抓取搜索结果。</p>
<p>Disallow: /wp-* 会连同附件目录一起限制抓取，如果想让搜索引擎抓取附件中的内容，将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。</p>
<p><strong>最合理的写法</strong></p>
<p>卖瓜的都说自己瓜甜，我也觉得自己的Robots.txt写的最合理 <img src='http://www.lesishu.com/wp-includes/images/smilies/icon_razz.gif' alt=':P' class='wp-smiley' /> </p>
<blockquote><p>User-agent: *<br />
Disallow: /wp-admin<br />
Disallow: /wp-content/plugins<br />
Disallow: /wp-content/themes<br />
Disallow: /wp-includes<br />
Disallow: /?s=<br />
Sitemap: http://www.lesishu.com/sitemap.xml</p></blockquote>
<p>允许所有搜索引擎抓取，逐一列举需要限制的目录，限制抓取搜索结果。</p>
<p>包含sitemap.xml地址（这一项<a href="http://en.wikipedia.org/wiki/Robots.txt" target="_blank">viki</a>中有专门的说明，但Google管理员工具会提示‘检测到无效的 Sitemap 引用’，有效性尚有争议）。</p>
<p><strong>robots.txt其他写法</strong></p>
<p>为避免在搜索引擎中出现重复页面，WordPress玩家自创了很多robots写法，列举一些常用的，作为参考（适用于伪静态方式的永久链接）：</p>
<p>Disallow: /page/</p>
<p>#限制抓取WordPress分页</p>
<p>Disallow: /category/*/page/*</p>
<p>#限制抓取分类的分页</p>
<p>Disallow: /tag/</p>
<p>#限制抓取标签页面</p>
<p>Disallow: */trackback/</p>
<p>#限制抓取Trackback内容</p>
<p>Disallow: /category/*</p>
<p>#限制抓取所有分类列表</p>
<p>最后，推荐使用 <a href="https://www.google.com/webmasters/tools/" target="_blank">Google管理员工具</a>，登录后访问“工具 -&gt; 分析 robots.txt”，检查文件有效性。<br />
<h2>相关文章</h2>
<ul class="related_post">
<li><a href="http://www.lesishu.com/script/wordpress-find-and-replacer/" title="WordPress内容批量替换插件：Find and Replacer">WordPress内容批量替换插件：Find and Replacer</a></li>
<li><a href="http://www.lesishu.com/script/wordpress-category-rss-and-1-plugin/" title="WordPress分类RSS &#038; 插件1个">WordPress分类RSS &#038; 插件1个</a></li>
<li><a href="http://www.lesishu.com/script/wordpress-revision/" title="关闭WordPress修订功能，清除“Revision”的方法">关闭WordPress修订功能，清除“Revision”的方法</a></li>
<li><a href="http://www.lesishu.com/i-say/wordpress-gravatar/" title="WordPress 评论头像设置方法">WordPress 评论头像设置方法</a></li>
<li><a href="http://www.lesishu.com/share/wordpress-writter-ping-xml-date/" title="解决WordPress使用Zoundry等博客写作工具的小问题">解决WordPress使用Zoundry等博客写作工具的小问题</a></li>
<li><a href="http://www.lesishu.com/script/wordpress-theme-seo-adsense/" title="WordPress模板（SEO+Adsense）">WordPress模板（SEO+Adsense）</a></li>
<li><a href="http://www.lesishu.com/i-say/my-blog-wordpress-theme/" title="樂思蜀博客模板、设置等说明">樂思蜀博客模板、设置等说明</a></li>
<li><a href="http://www.lesishu.com/script/wordpress-262/" title="WordPress 2.6.2 发布">WordPress 2.6.2 发布</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://www.lesishu.com/articles/wordpress-robots/feed/</wfw:commentRss>
		<slash:comments>23</slash:comments>
		</item>
		<item>
		<title>robots.txt和robots Meta标签</title>
		<link>http://www.lesishu.com/seo/robots/</link>
		<comments>http://www.lesishu.com/seo/robots/#comments</comments>
		<pubDate>Fri, 09 Nov 2007 14:55:47 +0000</pubDate>
		<dc:creator>樂思蜀</dc:creator>
				<category><![CDATA[SEO,搜索引擎优化]]></category>
		<category><![CDATA[Meta标签]]></category>
		<category><![CDATA[Robots]]></category>

		<guid isPermaLink="false">http://www.lesishu.cn/seo/robots/</guid>
		<description><![CDATA[今天一天之内，准确的说相隔不到3个小时，就有两个朋友在QQ上让我帮他看看网站，为什么搜索引擎不收录。从我个人角度来看，他们的站做的还不错，除了个别地方（如有几页标题相同之类）不够，没有导致不收录的因素。最后一查看robots.txt，“Disallow: /”。 回想起来，找我咨询的朋友中，还真有不少的一部分都是这样的问题，所以写出来，供不熟悉的朋友参考。 1、robots.txt是什么？ robots.txt是一个纯文本文件，用来告诉网络蜘蛛（不仅限搜索引擎蜘蛛）本站中哪些位置允许抓取，哪些位置不允许抓取。 2、如何正确放置robots.txt？ 首先，robots.txt文件必须放置在网站根目录；有域名指向到次目录，在次目录放置的robots.txt文件只对此域名有效。 其次，文件名必须小写，如Robots.txt、roBots.txt、robots.TXT都是错误的。 3、robots.txt内容应该如何写？ 文件应该同时包含2个域，“User-agent:”和“Disallow:”，每条指令独立一行。 (1)User-agent: 指定允许哪些蜘蛛抓取，如果给出参数，则只有指定的蜘蛛能够抓取；如值为通配符“*”号，代表允许所有蜘蛛抓取。如： User-agent: Googlebot 只允许Google的蜘蛛抓取； User-agent: * 允许所有蜘蛛抓取。 注意：User-agent必须出现在第一行（有意义的行，注释除外），首先声明用户代理。 (2)Disallow: 指定禁止蜘蛛抓取的目录或文件，如： Disallow: /help.php 禁止抓取根目录下help.php文件； Disallow: /admin/ 禁止抓取根目录下的admin子目录中任何内容； Disallow: 值为空时，表示不限制，蜘蛛可以抓取站内任何内容。 如果需要指定多个目录或文件，可以用多个“Disallow: 文件或目录名”来指定，但必须每一项单独一行。 这就是前面说到的那两位朋友网站robots.txt的问题，他们用“Disallow: /”禁止了蜘蛛抓取根目录下的所有内容。 4、robots.txt需要注意的几个问题： robots.txt文件中任意一行Disallow的值为空，其他指定的项都将失效，整站允许User-agent指定的蜘蛛抓取； robots.txt文件中允许使用注释，以“#”开头的内容被认作注释；但注释最好独立成一行，尽量不要加在参数后面，如“Disallow: /admin/ #manage dir”，某些蜘蛛可能将注释当作值的一部分。 尽量不要在一行的前面出现空格，如“  Disallow: /”，可能某些蜘蛛无法正确读取。 推荐一个robots.txt检查工具：http://tool.motoricerca.info/robots-checker.phtml 5、将你的XML格式Sitemap地址放到robots.txt中 Robin新发现，并率先在国内提出的，大家可以到点石博客中下载Robin的“网站如何被高效索引”演讲稿阅读。 加入Sitemap地址的作用是，如果搜索引擎蜘蛛能够识别此行，就能快速获知网站的XML地图文件地址，并将地图文件作为一个URL参考进行高效索引（具体哪些搜索引擎蜘蛛能够识别目前我还不清楚）。 如樂思蜀SEO博客的robots.txt，紧接着User-agent的第二行： Sitemap: http://www.lesishu.com/sitemap.xml 此处之前的内容，将Sitemap放在第一行的说法错误，特此更正。 robots Meta标签 robots.txt是放在网站中，文件级的网络蜘蛛授权；而robots Meta标签是放在网页中，一般用于部分网页需要单独设置的情况下。两者的功能是一样的。 Meta [...]]]></description>
			<content:encoded><![CDATA[<p>今天一天之内，准确的说相隔不到3个小时，就有两个朋友在QQ上让我帮他看看网站，为什么搜索引擎不收录。从我个人角度来看，他们的站做的还不错，除了个别地方（如有几页标题相同之类）不够，没有导致不收录的因素。最后一查看robots.txt，“Disallow: /”。</p>
<p>回想起来，找我咨询的朋友中，还真有不少的一部分都是这样的问题，所以写出来，供不熟悉的朋友参考。</p>
<p><strong>1、robots.txt是什么？</strong></p>
<p>robots.txt是一个纯文本文件，用来告诉网络蜘蛛（不仅限搜索引擎蜘蛛）本站中哪些位置允许抓取，哪些位置不允许抓取。</p>
<p><strong>2、如何正确放置robots.txt？</strong></p>
<p>首先，robots.txt文件必须放置在网站根目录；有域名指向到次目录，在次目录放置的robots.txt文件只对此域名有效。</p>
<p>其次，文件名必须小写，如Robots.txt、roBots.txt、robots.TXT都是错误的。</p>
<p><strong>3、robots.txt内容应该如何写？</strong></p>
<p>文件应该同时包含2个域，“User-agent:”和“Disallow:”，每条指令独立一行。</p>
<p>(1)User-agent:</p>
<p>指定允许哪些蜘蛛抓取，如果给出参数，则只有指定的蜘蛛能够抓取；如值为通配符“*”号，代表允许所有蜘蛛抓取。如：</p>
<blockquote><p>User-agent: Googlebot</p></blockquote>
<p>只允许Google的蜘蛛抓取；</p>
<blockquote><p>User-agent: *</p></blockquote>
<p>允许所有蜘蛛抓取。</p>
<p>注意：User-agent必须出现在第一行（有意义的行，注释除外），首先声明用户代理。</p>
<p>(2)Disallow:</p>
<p>指定禁止蜘蛛抓取的目录或文件，如：</p>
<blockquote><p>Disallow: /help.php</p></blockquote>
<p>禁止抓取根目录下help.php文件；</p>
<blockquote><p>Disallow: /admin/</p></blockquote>
<p>禁止抓取根目录下的admin子目录中任何内容；</p>
<blockquote><p>Disallow:</p></blockquote>
<p>值为空时，表示不限制，蜘蛛可以抓取站内任何内容。</p>
<p>如果需要指定多个目录或文件，可以用多个“Disallow: 文件或目录名”来指定，但必须每一项单独一行。</p>
<p>这就是前面说到的那两位朋友网站robots.txt的问题，他们用“Disallow: /”禁止了蜘蛛抓取根目录下的所有内容。</p>
<p><strong>4、robots.txt需要注意的几个问题：</strong></p>
<ul>
<li>robots.txt文件中任意一行Disallow的值为空，其他指定的项都将失效，整站允许User-agent指定的蜘蛛抓取；</li>
<li>robots.txt文件中允许使用注释，以“#”开头的内容被认作注释；但注释最好独立成一行，尽量不要加在参数后面，如“Disallow: /admin/ #manage dir”，某些蜘蛛可能将注释当作值的一部分。</li>
<li>尽量不要在一行的前面出现空格，如“<span style="background: red">  </span>Disallow: /”，可能某些蜘蛛无法正确读取。</li>
<li>推荐一个robots.txt检查工具：<a href="http://tool.motoricerca.info/robots-checker.phtml" target="_blank">http://tool.motoricerca.info/robots-checker.phtml</a></li>
</ul>
<p><strong>5、将你的XML格式Sitemap地址放到robots.txt中</strong></p>
<p><a href="http://www.seovip.cn/blog" target="_blank">Robin</a>新发现，并率先在国内提出的，大家可以到点石博客中下载Robin的“<a href="http://www.dunsh.org/2007/05/28/how-to-get-the-efficient-index-for-your-website/" target="_blank">网站如何被高效索引</a>”演讲稿阅读。</p>
<p>加入Sitemap地址的作用是，如果搜索引擎蜘蛛能够识别此行，就能快速获知网站的XML地图文件地址，并将地图文件作为一个URL参考进行高效索引（具体哪些搜索引擎蜘蛛能够识别目前我还不清楚）。</p>
<p>如<a href="http://www.lesishu.com">樂思蜀SEO博客</a>的robots.txt，紧接着User-agent的第二行：</p>
<blockquote><p>Sitemap: http://www.lesishu.com/sitemap.xml</p></blockquote>
<p><span style="color: #008080;">此处之前的内容，将Sitemap放在第一行的说法错误，特此更正。</span></p>
<p><strong>robots Meta标签</strong></p>
<p>robots.txt是放在网站中，文件级的网络蜘蛛授权；而robots Meta标签是放在网页中，一般用于部分网页需要单独设置的情况下。两者的功能是一样的。</p>
<p>Meta robots标签必须放在&lt;head&gt;和&lt;/head&gt;之间，格式：</p>
<p>&lt;meta name="robots" content="<span style="color: #333399;">index,follow</span>" /&gt;</p>
<p>content中的值决定允许抓取的类型，必须同时包含两个值：是否允许索引（index）和是否跟踪链接（follow，也可以理解为是否允许沿着网页中的超级链接继续抓取）。共有4个参数可选，组成4个组合：</p>
<ol>
<li>index,follow：允许抓取本页，允许跟踪链接。</li>
<li>index,nofollow：允许抓取本页，但禁止跟踪链接。</li>
<li>noindex,follow：禁止抓取本页，但允许跟踪链接。</li>
<li>noindex,nofllow：禁止抓取本页，同时禁止跟踪本页中的链接。</li>
</ol>
<p>以上1和4还有另一种写法：</p>
<p>index,follow可以写成all，如：</p>
<blockquote><p>&lt;meta name="robots" content="<span style="color: #333399;">all</span>" /&gt;</p></blockquote>
<p>noindex,nofollow可以写成none，如：</p>
<blockquote><p>&lt;meta name="robots" content="<span style="color: #333399;">none</span>" /&gt;</p></blockquote>
<p>需要注意的是，robots Meta标签很多搜索引擎是不支持的，只有少数搜索引擎能够识别并按给定的值抓取。所以，尽可能的使用robots.txt文件来限制抓取。</p>
<p>最后，给大家一个建议，不要太刻意的在robots.txt中设置过多禁止文件或目录，只设置确实不希望被搜索引擎索引的目录和文件就可以了。</p>
<p>特别是在不清楚文件或目录的作用时，不要轻易禁止抓取。前阵一位做旅游的朋友，网站中有大量的旅游景点图片，几大搜索引擎中却都没有索引，后来对网站检查时发现图片目录upload在管理目录admin下，被robots.txt禁止抓取了。</p>
<p>虽然网上关于robots的文章已经很多了，发现都不尽全面，整理了一下供参考。<br />
<h2>相关文章</h2>
<ul class="related_post">
<li><a href="http://www.lesishu.com/script/custom-fields-4-meta/" title="利用WordPress自定义字段定义Meta标签">利用WordPress自定义字段定义Meta标签</a></li>
<li><a href="http://www.lesishu.com/se-friendly/meta-keywords-description/" title="Meta标签之Keywords、Description">Meta标签之Keywords、Description</a></li>
<li><a href="http://www.lesishu.com/articles/wordpress-robots/" title="WordPress博客robots.txt写法">WordPress博客robots.txt写法</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://www.lesishu.com/seo/robots/feed/</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
	</channel>
</rss>
