随着互联网信息的爆炸式增长,搜索引擎为了不断提高用户查询效率与反馈信息的质量度,对自身算法进行不断地调整与升级 。在过去的几年间,主流搜索引擎对自身算法进行了数次重要调整与升级,重点在于打击各种违反搜索引擎友好度原则、有失公平性和质量性准则的作弊行为 。接下来重点向大家介绍几个算法,包括TrustRank算法、BadRank 算法、谷歌熊猫算法、谷歌企鹅算法、百度绿萝算法、百度石榴算法等 。
TrustRank 算法TrustRank汉译为“信任指数”,TrutRank 算法是近年来比较受关注的基于链接关系的排名算法,其目的是从互联网中筛选出优质的网页(质量较高的网页) 。

文章插图
TrustRank算法
TrustRank算法基于一个基本假设: 质量好的网站基本不会去链接质量差的网站,反之则不成立 。也就是说,质量差的网站很少链接到质量好的网站这句话并不成立 。恰恰相反,很多垃圾网站反而会想尽一切办法链接到高权威、高信任指数的网站,试图以此来提升自己网站的信任指数 。
基于这个假设,如果能挑选出可以百分之百被信任的网站,那么这些网站的TrustRank评分最高,而这些TusRank评分最高的网站所链接的网站信任指数将会被稍微降低,但还是很高,同时,第二层被信任的网站所链接出去的第三层网站,信任程度将会继续降低 。由于各种原因,质量高的网站难免会接到一些垃圾网站:不过距第层网站点击距离越近,所传递的信任指数就越高,其他网站的信任程度将依次降低,也就是说高第层网站距离越远,就越有可能被判定为垃圾网站 。
BadRank 算法如果该网页与一个不可信任或有作弊行为的网页之间存在链接关系,那么该网页也有可能存在作弊行为 。与ThusRank 算法相反,BadRank算法的主要目的是从互联网中筛选出质量低下的网页 。
BadRank算法与TustRank算法的工作原理极其相似,首先是确定一批不可信任的网页集合(网页黑名单),再通过网页与不可信任网页间的链接关系及链接距离来计算网页的不信任值,从而确定某个网页是否为不可信任网页 。
谷歌PageRank

文章插图
PageRank即网页排名(又称网页级别,简称PR,google左侧排名或佩奇排名),是一种根据网页之间相互的超链接计算的技术,Google用它来体现网页的相关性和重要性,也是我们在搜索引擎优化操作中经常被用来评估网页优化成效的因素之一 。
PageRank是一种投票机制,通过网络浩瀚的超链接关系来确定一个页面的等级,用于衡量特定网页相对于搜索引擎索引中其他网页而言的重要程度 。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google会根据投票的来源(甚至是来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级 。简单来说,一个高等级的页面可以帮助提升其他低等级页面的等级(这是我们需要交换友情链接及发布外部链接的原因) 。

文章插图
PageRank
【搜索引擎算法:谷歌算法】
谷歌把PageRank的级别定义为0~10, 10为满分 。PR值越高说明该网页越受欢迎 。例如一个网站PR值为1,表明这个网站不太具有流行度,而PR值为7~10则表明这个网站非常受欢迎(或者说极其重要) 。一般 PR值达到4,就是一个不错的网站 了 。Google 把自己的网站的PR值定为9,这说明Gogle网站是非常受欢迎的,也可以说这个网站非常重要 。
谷歌HillTop算法HillTop算法的指导思想与PagRank 是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重 。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大,即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高 。比如,我们的网站是介绍“服装”相关内容的,有10个链接都是从“服装”相关的网站(如布料、布艺等》链接过来的,那么这10个链接比另外10个从“机械”“化工” 相关网站链接过来的贡献要大 。
HillTop算法实际上是拒绝了部分通过随意交换链接的方法来扰乱Google排名规则而得到较好排名的做法 。
谷歌熊猫算法
推荐阅读
- PHP理论知识之12种排序算法的比较
- 谷歌SEO中的常见术语词汇解释
- 如何正确选择聚类算法?
- 什么是算法?如何学习算法?算法入门的学习路径
- 唯一ID生成算法剖析,看看这篇就够了
- 算法:如何实现大正整数相加?
- 搜索引擎如何运作?实际做什么?
- 谷歌的自动补全功能那么快,后台是如何工作的?
- 什么是搜索引擎?搜索引擎的定义
- 用python实现汉诺塔算法!(含代码示例)
