谷歌PR新概念!以链接距离为基础
一、谷歌PR(PageRank)
Google PR是Google诞生以来**知名度的概念,一位自称的前 Google软件工程师在Hacker News的一个讨论Google替代品的帖子中透露,Google早在2006年就不再使用Google PR了!
如上面的简单网络链接图所示,Google选出一部分页面作为种子页面,如图中上半部分的页面106、108、110,下半部分的都是种子页面集之外的、需要计算新PR值的。
关于种子页面的几个要点:
1、种子页面显然是高质量的页面,专利里举的例子是Google目录(其实就是已经死了的开放目录)和纽约时报。
2、种子页面需要与其它非种子页面有很好的连通性,有比较多的导出链接指向其它高质量页面。
3、种子页面需要稳定可靠,有多样性,大范围覆盖各类主题。
四、链接长度(Link Length)
种子和非种子之间有的离得近,有的离得远。如种子页面106通过链接132直接连向非种子页面112,非种子页面118则没有种子页面直接连向它,要通过两层链接。
链接距离并不是简单地数链接层数。每个链接Google会计算一个链接长度,链接长度取决于链接本身的特征和链接所在页面的特征,比如页面上有多少链接,链接的位置,链接文字所用字体等等。
所以,同样是一个链接,链接长度是不一样的:
1、页面导出链接越多,链接长度越长。这和原始PageRank思路是一样的,导出链接越多,每个链接分到的权重越少。
2、链接所在位置越重要,比如正文中,正文靠前部分,链接长度越短。
3、链接锚文字字号越大,或者在H1中,可能链接长度越短。
我记得Matt Cutts很久以前在谈到PageRank可能的修正时提到过,正文中的链接和页脚的链接被用户点击到的概率显然差距很大,所以不同位置的链接获得的PR和权重应该是不一样的。这种说法很符合这个专利的意思。
五、链接距离(Link Distance)
链接距离就是页面与种子页面集合之间的**短链接长度之和。种子页面和非种子页面之间通常不止一条链接通路,如示意图中,页面118可以通过链接132、136从种子页面106到达,也可以通过链接134、142、140到达,还可以通过链接134、140到达,还可以通过其它链接从其它种子页面到达,所有这些从种子集到页面的链接通路中,链接长度之和**短的那个被定义为链接距离。
如果一个页面无法从任何种子页面出发访问到,也就是种子页面集合到这个页面完全没有链接通路,那么链接距离是无限大。
然后Google算法根据链接距离计算出一个页面的排名能力分数,也就是新PR值,**后的排名算法中,这个新PR值作为排名因素之一。也就是说,链接距离越短,离种子越近,Google认为页面越重要,排名能力越高。
链接距离的计算不需要迭代,所以比原版PageRank的计算要快得多,而在代表页面重要性上,我相信Google做过对比,准确性差不多,所以就用来代替原来的PR了。
六、简化链接网络图(Reduced Link-Graph)
如果一个页面从种子集合完全没有链接通路可以到达,也就是前面说的链接距离为无限大,这个页面将被排除在简化链接网络图之外。如果一个页面得到的链接都来自简化链接网络之外,虽然链接总数可能很大,但其链接距离依然是无限大。
换句话说,在简化链接网络之外的链接是被忽略掉的,无论有多少链接。联想到Penguin 4.0算法更新,其中一个特征就是,垃圾链接是被忽略掉的,不被计入链接的流动中,这和基于链接距离的页面级别非常相似。
https://www.jryxtg.com/3678.html
免责声明:文章图片未做标注,均来源于网络,如有侵权,请联系删除!
设计圈对武汉战“疫”的声援 » » « « 广告设计的成功法则
点击下方立即获取您的行业调查背景及免费运营方案