从数据挖掘角度看GOOGLE幽灵现象
作者:leolu 日期:2009-5-13 20:1:37
为什么新提交的网站的收录时有时无?本文从数据挖掘角度推测其中的原因。首先让我们来了解一下google蜘蛛的工作机制,google在真正收录新站网页之前,会对新站的网页进行一定时期的考察,然后通过考察期获得的各种信息,给新站的网页一个初始的排名位置,最后编入主索引,给出一个相当稳定的排名。
在你的网页编入被正式索引之前,会被新站收集爬虫编入临时观察索引,根据引擎对这个临时索引的检索,你的网页会时不时的在google的搜索中被发现并展现在用户面前。但是由于这个临时索引变动特别厉害,原因有二:首先,大量的新页面不断的加入进来,造成索引不停的变动。 第二,由于临时索引在引擎中的地位要大大低于主索引。
但是GOOGLE为什么要采用这样的模式呢?让我们从数据挖掘的角度来理解一下吧!
如果你是搞数据库开发的,你应该知道处理大数据量系统时,一般会将数据采集数据库和数据挖掘数据库独立开,这样做的好处是:
1.由于长期累计的数据量特别大,当重新建立索引或者做其他全表操作时,所消耗的系统资源特别大,如果将2个库合并到一起,事必影响数据采集端的作业
2.由于新入的数据和来源端密切相关,而且数据有可能因为网络或者其他问题造成不准确,需要做修正。如果2个库合并到一起的话,经常做数据修正,那么必然也是需要消耗大量的资源的。
为什么GOOGLE的排名一段时间才会更新一次?因为数据量实在太大,GOOGLE想实时更新估计也很难做到!
为什么新站收录忽多忽少?因为GOOGLE认为根据任何公式给新站的页面计算出的排名都是不准确的,需要一段时间的修正才能编入正式索引(正式索引重新编录需要很长一段时间,因此需要确认给新站一个相对准确的位置再编入正式索引,这才是对用户的负责)
GOOGLE的搜索引擎DB中的数据DB估计是全世界最大的DB了吧!通过将正式索引和临时索引分开,对老站和新站区别对待,一方面能够将大量的99%以上的老站的网页按正确的优先级展示给需要他们的用户,另一方面又积极的收集新的站点的网页数据.
关于GOOGLE幽灵现象,以下是摘录自knowsky的一段描述:
资料引用:http://www.knowsky.com/346095.html
Google有两种网络爬虫,主爬虫和新爬虫。主爬虫主要负责发现新的网页。一个网页在新索引建立之后,马上会被主爬虫发现。如果一个网页建立索引需要经过一个月的时间,这个网页就会失效。
新索引的建立还需要考虑其他非询问式的决定因素。这些决定因素关系着网页排名的高低。为了充分利用这些网页,而不是浪费时间等着下一次索引算法的更新,Google必须采取一些简单的措施来猜测排名,猜测访客难以利用的新内容是什么。
尽管Google在作猜测,下列内容都是真实可信的:
1) 幽灵登陆页上的排名不能等同于索引页的排名。
2) 在每月新数据库建立之前,必须将幽灵登陆页从数据库中移走。但是,这只是暂时的移走。
如果您的索引中有这样登陆页,您的主要目标应该是让该页在Google新页上拥有排名。若您想做到这点,您需要定期、有规律、最好是每天,有一定间隔地更新网站内容。
为什么您想要在Google的新页上获取排名?因为在新页上有排名的网站更容易被抓取,索引更容易更新。但是在新页上的排名不是真正的排名,新页排名有很强的不稳定性。新页排名转化为真正排名需要经过一段时间。
本文原标题:从数据挖掘角度看GOOGLE幽灵现象
请转载的朋友加上本文的链接地址:)
我的博客地址[http://blog.csscss.org/]
Tags: google
相关日志:
上一篇
下一篇