Home » SEO-搜索引擎优化 » 百度开始清理索引

前几天也发表了对百度最近表现的个人观点,这段时间通过使用工具和手动记录方式相结合,观察百度索引、排名上的一些变化。今天作了一些分析,樂思蜀感觉之前的猜想有那么一点真实可靠了,百度似乎准备启用新的存储机制,开始对目前索引的数据进行清理。

通过对近20个站的观察,最近百度平均收录数量下降,但与实际URL数越来越接近。我通常把高于实际URL数量以外的收录数称作“水份”,归纳为这3种:

  • 百度水份:使用“site:域名”查询出来的搜索结果数,并不一定是真正的索引数,百度可能为了标榜其数据库,在索引数中注入了水份。检查的最简单方法就是翻页,翻到最后一页,如果出现“……点击这里可以看到所有搜索结果”,点击后看到的数字基本是准确的索引数。
  • 技术水份:搜索引擎(不仅限于百度)毕竟是机器完成的,对“相似页面”或“重复页面”的处理仍不够完善,索引中可能包含一个页面的多个版本(如:很多论坛的无图版+完整版;使用URL不规范的程序,不同位置指向同一页面的链接URL版本不一致;等……)。
  • 网站水份:已经失效的页面,搜索引擎会适当保留一定时间;并无实质性价值的功能页;用户上传的搜索引擎能够索引的附件等。

在观察的近20个网站中,这几天水份数量在急骤减少,约1/3的网站收录数几乎等于实际URL数。

个人猜测,可能是百度准备启用新的存储机制,或对索引处理上的一次改进,目前对已经索引的页面进行清理,为新的技术更新做准备。

如果这个猜测成为事实,樂思蜀倒是有点担心,这次清理的力度会不会有点过。

观察的网站中有1/3有不同版本URL,清理时,约15%包含多版本URL的页面直接被从索引中删除了,这就有些接近于“惩罚”了;另外,这次对带“采集”性质(实验站非真正的采集,只是大量转载)清理也有些过,有2个站直接被清空了,通过与几位朋友的交流中也证实了这一点。

按此清理的标准下去,这次对中文网站的冲击是相当大的;以目前的形势,对百度自身也不利。

作者:樂思蜀
原文:百度开始清理索引
版权所有,转载时必须以链接形式注明作者和原出处并保留本声明。

16 Comments

  1. Cloudream says:

    对百度自身不利指什么呢? 可能的结果准确度下降?

  2. 樂思蜀 says:

    To Cloudream:
    索引量/深度/广度… 这些都是搜索引擎的资本

  3. YingFan says:

    你好,看了你写的好多文章,觉得学到不少东西!
    我虽然也经常写一些东西放在网上,但是都比较散乱的
    这段时间刚刚将以前写的好多东西都放到了一起,而其也非常想把自己的博客办好,可是没有什么经验,看了访问量还是没有

    希望能有辛得到你的指点,非常感谢!
    http://and-money.blogspot.com

  4. kyw says:

    感觉百度3个月左右反复一次。

  5. 稻草神 says:

    个人也一直有一些想法的
    看了乐思蜀的更有意见
    百度的技术是一向不如google的
    至少我是这样认为的
    现在又进行这样的调整 不知道调整后结果如何
    但百度最近的表现还是比较能伤人的…….

  6. 晓风残月 says:

    老乐,新年快乐。
    快回来写BLOG。。!我都快成你秘书了。。天天催你更新BLOG !
    反倒是自己的BLOG很久没写了!

  7. 天高云淡 says:

    很高兴来这看看,看你的文章对我很有启发,现在我也在写文章了,只能是自己一点总结

  8. 现在 要百度收录真的是很难啊。我的一个站都20天了还没收。

  9. 拾宝 says:

    百度的算法近期肯定会有一次大的转变。。其实说一句。百度有点对我太好了。让我有点不安。囧。

  10. 侧速 says:

    百度经常是变幻莫测啊!

  11. 艺术签名 says:

    对个人小站而言 收录首页就行了 流量全靠首页
    内页没收录的

  12. 阿浩 says:

    看了你这篇文章很受启发,非常感谢!

  13. 瘦腿产品 says:

    无意中进入你的博客,你写的文章好独到,分析得很好,平时在网上看到的关于seo的知识都是较分散、含糊,看到你的文章都是学到不少东西。。谢谢樂思蜀的分享。会一直支持你的。

  14. 说的没错,我的网站快照一夜之间清空了。都两周了,一个收录都没,咋办呀现在。

Leave a Reply