Jan 23, 2008 -
SEO,搜索引擎优化
16 Comments
SEO,搜索引擎优化
16 Comments 百度开始清理索引
前几天也发表了对百度最近表现的个人观点,这段时间通过使用工具和手动记录方式相结合,观察百度索引、排名上的一些变化。今天作了一些分析,樂思蜀感觉之前的猜想有那么一点真实可靠了,百度似乎准备启用新的存储机制,开始对目前索引的数据进行清理。
通过对近20个站的观察,最近百度平均收录数量下降,但与实际URL数越来越接近。我通常把高于实际URL数量以外的收录数称作“水份”,归纳为这3种:
- 百度水份:使用“site:域名”查询出来的搜索结果数,并不一定是真正的索引数,百度可能为了标榜其数据库,在索引数中注入了水份。检查的最简单方法就是翻页,翻到最后一页,如果出现“……点击这里可以看到所有搜索结果”,点击后看到的数字基本是准确的索引数。
- 技术水份:搜索引擎(不仅限于百度)毕竟是机器完成的,对“相似页面”或“重复页面”的处理仍不够完善,索引中可能包含一个页面的多个版本(如:很多论坛的无图版+完整版;使用URL不规范的程序,不同位置指向同一页面的链接URL版本不一致;等……)。
- 网站水份:已经失效的页面,搜索引擎会适当保留一定时间;并无实质性价值的功能页;用户上传的搜索引擎能够索引的附件等。
在观察的近20个网站中,这几天水份数量在急骤减少,约1/3的网站收录数几乎等于实际URL数。
个人猜测,可能是百度准备启用新的存储机制,或对索引处理上的一次改进,目前对已经索引的页面进行清理,为新的技术更新做准备。
如果这个猜测成为事实,樂思蜀倒是有点担心,这次清理的力度会不会有点过。
观察的网站中有1/3有不同版本URL,清理时,约15%包含多版本URL的页面直接被从索引中删除了,这就有些接近于“惩罚”了;另外,这次对带“采集”性质(实验站非真正的采集,只是大量转载)清理也有些过,有2个站直接被清空了,通过与几位朋友的交流中也证实了这一点。
按此清理的标准下去,这次对中文网站的冲击是相当大的;以目前的形势,对百度自身也不利。
作者:樂思蜀
原文:百度开始清理索引
版权所有,转载时必须以链接形式注明作者和原出处并保留本声明。
对百度自身不利指什么呢? 可能的结果准确度下降?
[...] 乐思蜀在前几天写文章说,百度在进行技术更新,今天临晨又写文章说,百度在改进数据存储技术。百度是不是在进行算法更新我不知道,不过到年末了,老乐的这个假设应该能够成立,google就是如此。我更愿意相信的,一个是百度在改进数据存储技术,另一个是百度的数据回档。 [...]
To Cloudream:
索引量/深度/广度... 这些都是搜索引擎的资本
你好,看了你写的好多文章,觉得学到不少东西!
我虽然也经常写一些东西放在网上,但是都比较散乱的
这段时间刚刚将以前写的好多东西都放到了一起,而其也非常想把自己的博客办好,可是没有什么经验,看了访问量还是没有
希望能有辛得到你的指点,非常感谢!
http://and-money.blogspot.com
新年快乐!
感觉百度3个月左右反复一次。
个人也一直有一些想法的
看了乐思蜀的更有意见
百度的技术是一向不如google的
至少我是这样认为的
现在又进行这样的调整 不知道调整后结果如何
但百度最近的表现还是比较能伤人的.......
老乐,新年快乐。
快回来写BLOG。。!我都快成你秘书了。。天天催你更新BLOG !
反倒是自己的BLOG很久没写了!
很高兴来这看看,看你的文章对我很有启发,现在我也在写文章了,只能是自己一点总结
现在 要百度收录真的是很难啊。我的一个站都20天了还没收。
百度的算法近期肯定会有一次大的转变。。其实说一句。百度有点对我太好了。让我有点不安。囧。
百度经常是变幻莫测啊!
对个人小站而言 收录首页就行了 流量全靠首页
内页没收录的
看了你这篇文章很受启发,非常感谢!
无意中进入你的博客,你写的文章好独到,分析得很好,平时在网上看到的关于seo的知识都是较分散、含糊,看到你的文章都是学到不少东西。。谢谢樂思蜀的分享。会一直支持你的。
说的没错,我的网站快照一夜之间清空了。都两周了,一个收录都没,咋办呀现在。