从数据挖掘角度看GOOGLE幽灵现象

     为什么新提交的网站的收录时有时无?本文从数据挖掘角度推测其中的原因。首先让我们来了解一下google蜘蛛的工作机制,google在真正收录新站网页之前,会对新站的网页进行一定时期的考察,然后通过考察期获得的各种信息,给新站的网页一个初始的排名位置,最后编入主索引,给出一个相当稳定的排名。

         在你的网页编入被正式索引之前,会被新站收集爬虫编入临时观察索引,根据引擎对这个临时索引的检索,你的网页会时不时的在google的搜索中被发现并展现在用户面前。但是由于这个临时索引变动特别厉害,原因有二:首先,大量的新页面不断的加入进来,造成索引不停的变动。 第二,由于临时索引在引擎中的地位要大大低于主索引。

       但是GOOGLE为什么要采用这样的模式呢?让我们从数据挖掘的角度来理解一下吧!

      如果你是搞数据库开发的,你应该知道处理大数据量系统时,一般会将数据采集数据库和数据挖掘数据库独立开,这样做的好处是:

     1.由于长期累计的数据量特别大,当重新建立索引或者做其他全表操作时,所消耗的系统资源特别大,如果将2个库合并到一起,事必影响数据采集端的作业

     2.由于新入的数据和来源端密切相关,而且数据有可能因为网络或者其他问题造成不准确,需要做修正。如果2个库合并到一起的话,经常做数据修正,那么必然也是需要消耗大量的资源的。

     为什么GOOGLE的排名一段时间才会更新一次?因为数据量实在太大,GOOGLE想实时更新估计也很难做到!

     为什么新站收录忽多忽少?因为GOOGLE认为根据任何公式给新站的页面计算出的排名都是不准确的,需要一段时间的修正才能编入正式索引(正式索引重新编录需要很长一段时间,因此需要确认给新站一个相对准确的位置再编入正式索引,这才是对用户的负责)

      GOOGLE的搜索引擎DB中的数据DB估计是全世界最大的DB了吧!通过将正式索引和临时索引分开,对老站和新站区别对待,一方面能够将大量的99%以上的老站的网页按正确的优先级展示给需要他们的用户,另一方面又积极的收集新的站点的网页数据.

      关于GOOGLE幽灵现象,以下是摘录自knowsky的一段描述:

       资料引用:http://www.knowsky.com/346095.html

      Google有两种网络爬虫,主爬虫和新爬虫。主爬虫主要负责发现新的网页。一个网页在新索引建立之后,马上会被主爬虫发现。如果一个网页建立索引需要经过一个月的时间,这个网页就会失效。

  新索引的建立还需要考虑其他非询问式的决定因素。这些决定因素关系着网页排名的高低。为了充分利用这些网页,而不是浪费时间等着下一次索引算法的更新,Google必须采取一些简单的措施来猜测排名,猜测访客难以利用的新内容是什么。

  尽管Google在作猜测,下列内容都是真实可信的:

  1) 幽灵登陆页上的排名不能等同于索引页的排名。

  2) 在每月新数据库建立之前,必须将幽灵登陆页从数据库中移走。但是,这只是暂时的移走。

  如果您的索引中有这样登陆页,您的主要目标应该是让该页在Google新页上拥有排名。若您想做到这点,您需要定期、有规律、最好是每天,有一定间隔地更新网站内容。

  为什么您想要在Google的新页上获取排名?因为在新页上有排名的网站更容易被抓取,索引更容易更新。但是在新页上的排名不是真正的排名,新页排名有很强的不稳定性。新页排名转化为真正排名需要经过一段时间。


      



本文链接地址:http://blog.csscss.org/post/10.shtml
本文原标题:从数据挖掘角度看GOOGLE幽灵现象

请转载的朋友加上本文的链接地址:)

我的博客地址[http://blog.csscss.org/]
引用通告: 我要引用此文章
Tags: google  
相关日志:
  • 关于如何做GOOGLE的附加链接  (2009-5-11 15:15:56)
  • 用好Google管理员工具  (2009-5-11 14:34:48)
  • 评论: 1 | 引用: 0 | 查看次数:
    回复 橡胶线 [2009-11-13 13:43:13]
    回复,支持一下,呵呵!:)10
    发表评论
    昵 称:
    邮 箱:
    主 页:
    验证码:
    内 容: