江湖说梦人提示您:看后求收藏(春雷小说clqcjtz.com),接着再看更方便。
“在我展示我的核心技术之前,我们先来看看当下的三大主流算法,白度的超链分析,谷歌的pagerank算法以及ibm的hits算法。
几乎所有人都觉得白度的超链分析是三个算法中最落后的,但有些事情我们还是要多角度的看一看,白度的超链分析在某种程度上可以算得上是奠定了搜索引擎的发展基础。
有一些声音说谷歌其实是剽窃了白度的超链算法,毕竟李彦宏这个专利确实在谷歌之前,我们现在不去猜测真假,但这种说法体现了一个很重要的信号,其实不管是哪一家的算法,算法基础其实都是一样的。
抓取网页信息,然后用某种机制对这些网页进行排序,当用户输入关键词进行搜索时,根据关键词匹配出按照机制进行排列的网页。
那么白度输在哪呢?关键就在于白度现在过于简单的基于在某次搜索的所有结果中被其他网页用超链接指向的越多的网页就价值越高这种基础排序方式。
相比之下,谷歌的pagerank就多了两件很重要的事情,第一件事情是,把a页面到b页面的链接解释为a给b的投票行为,谷歌在这里会同时考评a和b的等级从而形成新的等级。
也就是每一个页面都有pr值,同时你的pr值会成为其他页面pr值的参考。
然后不断的重复计算每个页面的pr。假设给每个页面一个随机pr值,那么经过不断的重复计算,这些页面的pr值会趋向于稳定,也就是收敛