HillTop (LocalScore) 算法
作者:Atul Gupta
Google新算法的庐山真面目到底是什么?这仍然是个迷。而在Google网站上,从其"对高质量内容网站进行奖励及对采用恶意技术的网站进行惩戒"内容中,亦无什么新内容可寻端倪。自然,作为搜索引擎,这种做法是完全可以理解的。搜索引擎的算法应该是保密的,因为它们对新算法的任何评论,同意或否定的言行都会泄露其新算法,而任何对排名系统的一丁点泄漏都有可能被一些人钻了空子,并用来恶意操纵搜索结果,从而破坏搜索结果的客观公正性。
我们根据一些比较具有可行性的推测,并结合实际研究、试验,以及对搜索引擎行为的发展趋势和历史的知识基础,得出了一些发现。首先,我们来看看对于Google新算法的一些比较值得注目的发现:
1.Google新算法种种之种种传言 & 猜测
对于Google新算法主要有下面这样一些传言和猜测:
开始使用词典对号入座;
意图施压使商业站点使用Adwords广告服务;
开始使用"基于贝叶斯定理的SPAM过滤系统" ;
开始处罚互惠链接,"优化"网页,或"链接文本" ;
众多猜测中,"Google意图施压使商业站点使用Adwords广告服务"显然占了上风。许多
搜索引擎优化
分析家都认为:Google通过一个保密的过滤系统"黑名单"来对商业网站进行筛选,从而达到上述目的。对此观点我实在不敢苟同。解释如下…
1.1 是否若查询条件中包含"商业性关键词"时,Google会对搜索结果进行筛选?
因为这次更新中损失最惨重的是一些商业网站,所以有很多
搜索引擎优化
专家都认为Google开始对那些含有所谓"商业性关键词"的查询条件所产生的查询结果进行筛选。而从优化专家针对此所做的一些最初的测试结果来看,确实也表明了一些看起来似乎能够证实这种推测的征兆。
1.2 Google此举动机何在?
如果这是真的,那么Google为什么要这样做?这种推测的后盾在于Google算法更新的时间正好在圣诞购物季节之前,并适逢其IPO上市之际。分析家认为:Google这样做是为了向商业性站点施加压力,如果这些商业网站期盼在一年一度的美国传统的圣诞购物季节得到丰厚赢利的话,就得花钱做AdWords自助广告。免费午餐看来是没有了。还有一些人则认为Google此举旨在为其最终业绩(即基线)涂抹上一点光明的色彩来打动其未来投资者。
1.3 那么又是谁取代了商业站点原来的交椅?
从结果页上看,前20个结果好象都是一些官方站点(.gov),教育类站点(.edu),公益组织性站点(.org),目录及非美国本土的站点。由于这些站点一般并不太需要做广告,所以分析家们据此相信:提升这些类型的网站不会影响到Google的广告收入,同时还可以对商业性站点施压并迫使其加入Google的AdWords自助广告阵营中来。
1.4 Google从何获得"商业性关键词"名单?
从Google的AdWords广告系统,Google已然拥有一个大型的"商业性关键词"的数据库。有趣的是,等于是那些广告客户和商业性站点的所有者自己把哪些是"好的商业词语"告诉给Google了-Google通过广告者对关键词语的竞标价格的变化完全可以看出每个关键词语的"价值"来。
1.5 事实究竟如何?Google是否确是在用"商业关键词"名单来过滤掉商业站点?
我个人认为:这种想法实在与事实太过相悖,而且我坚信:Google并不象分析家们所认为的在"过滤"站点。而且我相信,Google压根就没有什么"商业关键词"名单。一度流行的这种"过滤名单"理论是分析家们从自己所看到的迹象上得出的,而事实上这些所谓的迹象是由于其它原因所引发的,而并不是什么"过滤"所导致的。后面我会就此问题向大家详细解释和阐述。
不可否认,从实践中我们确实可以看到一些象"过滤"的结果,但我们有理由相信这样的结果实际上是Google新算法的一种"副产品",而非Google本意。新算法意图对商业性网站而不是公益性网站施加影响。稍后我会向大家详细解释…
Scroogle.org,这个由不喜欢Google的群体所建立的网站,原来可以通过一种巧妙的方式从Google上提取数据,并向用户提供一种可检查网站在Google上的"未过滤"的往日排名结果的工具。不过由于Google现已更新了算法以禁止此类查询,故Scroogle.org现已无法提供这样的工具。不过,该网站仍显示有一个从其网站上多方搜索而收集到的所谓"Filter Hit"名单。我研究过这个名单。 我觉得,它充其量也只能证明了Google并未使用任何如上所说之名单。不然的确话,如何解释"California Divorce Attorney"位于名单之首而"Books"或"Adult"却屈居最下席?难道在Google眼里,"California Divorce Attorney"比"Books"或"Adult"更有商业价值?
Google任何从正常的排名机制中过滤掉把商业性站点的企图都是对Google品牌,乃至对其公正的搜索结果信誉的严重损害。若真有这样的企图,那Google真是太短视了,根本配不上它的品牌和它的服务。Google的股票上市(IPO)和最终业绩都将因此而毁于一旦。此外,Google也说过,其"搜索服务"和"AdWords自助广告"服务分属两个不同的工作部门,且互不搭界、互不影响。对此我还是相信的。
2.Google搜索技术的几个明显变化
2.1 Google开始采用词干技术(stemming)
Google确已在搜索结果中采用了词干技术。在早先,如果搜索一个单数查询条件如"home garden",则搜索结果中不会出现如"home gardens","home gardening"这样的关键词变化形式,反之亦然。对于Google的用户来说,这种特性可能是一件好事情,因为搜索提供的结果更多了,但站在
搜索引擎优化
的立场来看,由于搜索结果的骤然增加,对关键词的竞争亦骤然加剧。
2.2 Google于搜索结果中使用了拼写纠错工具
Google开始将其拼写检查工具用于搜索结果中。例如,当输入查询条件为"Search Engine Optimisation"后,以往Google只会提示你是否是要找"Search Engine Optimization",但显示的还是符合"Optimisation"的搜索结果。不过现在则能看到"Optimization"的搜索结果。再如:"e-mail solution"和"email solution"的搜索结果一致,而"e-commerce"则与"ecommerce"的搜索结果是一致的,这样就增加了数据的竞争性。
3.对Hilltop算法的分析和推测
3.1 为什么采用新算法
大多数网迷们都知道,页面等级算法是由Google的创始人Sergey Brin和Larry Page所倡起的,用以精良网站在搜索结果中的排名。这也是自1998年Google发布以来的取得种种骄人成绩的重要因素之一。
但页面等级系统亦存在着一个基本的缺陷,Google也深知这一点。它根据一个网页上被链接的站点数量和质量来给该网页分配一个绝对的"重要性值"。同时亦将链接页面的页面等级考虑在内。指向一个网页的外部链接页的页面等级越高,则该链接页面传递给该网页的页面等级值也就越高。但是,"页面等级值"并非针对查询词语,因而一个网页即使只是在内容中偶然提到了一个和查询主题偏离的关键词语,也会因其居高的页面等级值而获得一个比较高的排名。
美国加州的克利须那。伯哈拉特(Krishna Bharat) 意识到基于页面等级的排名系统中所存在的这种瑕玼,并于2000年提出了一种新算法,他称其为"Hilltop"算法,并于2001年的一月份申请了Hilltop专利权,Google成为受让方。不言而喻,Google已然意识到这种新算法与其页面等级系统的整合将为Google的排名系统带来良好的效果。
我深信,在Google最近的更新中,不但运用了Google自身的页面等级和相关性算法,而且还结合使用了Hilltop算法用于精工调整页面等级的效果,只不过Hilltop算法可能已迥异于它最初的模样了。
3.2 什么是Hilltop算法?
对此算法有兴趣了解并想挖根究底的人可以看看克利须那。伯哈拉特当年所写的Hilltop论文及详细的Hilltop专利信息。但对我们大多数人来说,只要知道Hilltop算法到底是个什么东东就可以了。简单地说,页面等级决定一个网页的"权威性",而Hilltop(LocalScore)则决定匹配一查询条件的一个网页的"权威性"。
Bharat提出:在利用"页面等级"来寻找"权威"网页时,不应单纯依赖于值的大小来定夺,而应将重点放在它与查询主题的相关性上; 即不但需要考虑网页的页面等级,还要考虑该网页的页面等级与查询主题的相关性是否相称。若一个网页只与查询主题只沾点边,那么即使其页面等级非常之高,对用户来说也是没有意义的。如此一来,于网页而言,那些来自于"相关主题"的文档的链接就更有意义了 (Bharat称这种"相关主题"文档为"专家文档"),一个网页的所有外部"专家文档"链接构成了该网页的"权威性值"。Hilltop算法的意义在于:相同主题网站之间的链接应比非相关网站的链接具有更高的价值。
Hilltop算法以如下方式计算一个网页的"权威值"(这只是极为简单的一个例子):
以该关键词进行一次普通查询找专家文档"文集"。"专家文档"的定义有严格标准,因该"文集"应是数量上易于管理的一组网页。
从返回的专家列表中把成员站点(见下注解*)和镜象站点去掉。
根据所获得的上述专家文档对其投票的数量和质量,网页被分配以一个“局部分数”(LocalScore)。然后按网页的“局部分数”进行排名。
*注解:成员站点指来自同一个域,或域相同而后缀不同的站点,如ibm.com,ibm.co.uk,ibm.co.jp等等,或指来自相邻的IP地址的站点 (前三位IP地址相同,形如64.129.220.xxx)
此外,若两个站点均为相同IP地址下的宿主,则认为其中一个是另外一个站点的成员站点。(即:若ww.abc.com和
www.ibm.com
均为相同IP地址下的宿主,则认为
www.abc.com
是
www.ibm.co.uk
的成员站点)
Hilltop算法的一个极其重要的特征在于:若没有找到搜索引擎认为数量足够的“专家文件”(要求至少需有两票),则该算法失效,即返回结果为零。换言之,对于高度明确化的查询条件(查询词语),Hilltop算法的结果很可能为“0”。这是该算法的一个独特特性。如此一来,造成了
SEO
一族中的大部分人都深信Google的确在用“商业词”过滤名单来过滤掉商业网站。
事实上,在Hilltop算法无法奏效时,将显示“旧”Google的搜索结果。这些查询条件的集合就是
SEO
一族所收集并称之为的“商业词名单”。这一效果无意中却提供了一个强有力的证据,表明Google确是采用了Hilltop算法。2003年11月15号,Google基于新算法的更新之后, 某分析家就指出:在进行查询时,若对某一查询条件加上一些“不包含”的无意义字符,如“car rental – ghjkl”,则Google将会显示以往(算法变化前)的搜索结果,而绕过所谓的“商业词”过滤名单。
例如,若查找“real estate –hdfkdhgk”,则Google将试图返回所有关于“real estate”,同时内容中又不包含“hdfkdhgk”的页面。又由于包含“hdfkdhgk” 这种字眼的网页几乎没有,所以按道理来讲,Google返回的查询结果应该和“real estate”的查询结果是相同的。然而结果却出人意料:Google所显示的查询结果和采用新算法之前的搜索结果的排名是相同的。事实上,Scroogle.org这个网站就是捕捉Google的搜索结果在排名上的不同,并以此得出一个所谓的“商业词”过滤名单。
在所谓的“商业词”背后到底是什么?
我们相信,“商业词”过滤式效果只是Hilltop算法的一个衍生症状。每当用户进行类似“real estate –hdfkdhgk”的查询时,Google都会对整个查询词语进行Hilltop运算,当无法找到足够的包含这种查询词语的“专家文件”时,该算法将返回一个零值(即零效果)。 这就意味着我们通过这种多少有些滑稽的特殊排除词语绕过了Hilltop算法, 这时候Google的其它算法就该出头发挥作用了,而它们所提供的查询结果明显地和算法更新前的查询结果是一样的! 后来Scroogle.org的声名鹊起让Goolge发现了这个bug。后来Google为了防止此类漏洞,索性把查询分成两步走,先把排除条件词语放一边,将查询条件送至Hilltop进行运算,如此一来,由于Hilltop不再同时对排除条件进行解析,所以可保证其正常发挥效用,并提供相应的搜索结果,然后再将此结果传递给Google算法,Google根据最初查询中的排除条件从Hilltop提供的结果中将符合排除条件的网页剔除,然后再将结果显示给用户。这也就是为什么我们现在用上面的法子再也无法看到“旧Google”的搜索结果的原因了。
Google新算法意义何在
Hilltop算法与Google的页面等级算法及页面相关性算法的结合看起来是超佳组合,几乎无懈可击。其联姻对于链接流行度/页面等级和来自专家文件(LocalScore)的链接对你网站的排名的影响程度有着深远的意义。
我列了一个简单的公式来说明新算法的效果和影响 (谨供参考):
“旧”Google排名公式 = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)}
“新”Google排名公式 = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)} *{(1-f)+c (LS)}
其中:
RS = 相关性得分:基于网页标题(Title)。元标识(Meta tags), 正文标题(Headlines),正文(Body text)。URL,图片Alt文字,锚文字(Anchor Text)等元素中出现的关键词得出的分数。
PR = 页面等级:(基于链接至你网站的网页数量及其PR值得出的分数。原始公式为PR (A) = (1-d) + d (PR (t1)/C (t1) + …+ PR (tn)/C (tn)),其中D为阻尼因子,一般设为0.85; 公式可描述为:A网页的其PR值等于链向该页面的所有链接页面的PR值分别除以各自的外部链接数量的总和。
LS = 行业得分(LocalScore):根据专家文件计算得出的分数。
a,b,c = 调节控制比重:Google用于精工调整查询结果
d,e,f = 阻尼控制:Google用于精工调整查询结果。目前“f”值可能为“0”。
fb = 因子基数:Google工具栏山所显示的页面等级得分范围从1到10,但它实质上并不是一个线性函数,而是一个指数/对数函数。经过分析,我们认为它有一个趋近于8的基数。即PR为5的网页的值比PR为4要多8倍之多(PR5=PR4X8),同样,一个PR值为8的网站比一个PR值为4的网站的值要高出4000多倍(PR8=PR4X8X8X8X8)。
Google新算法的优势/优点
页面因子极易被人利用和控制,例如最早被用作排名因子的META TAGS,就由于很多网站无度的关键词充斥泛滥而不得不被搜索引擎喊停。此外,在开始的时候,由于顾忌到真实来访者的感受,对网站内容一般作手脚的并不多,但后来亦难免诱惑,过度优化,甚至页面上放上许多“隐形”的内容已是屡见不鲜的伎俩。页面因子确实无形中赋予网站管理员太多“恶意”控制权。而在Google的新算法中,各排名因素所占比重分别如下:
总“排名”得分由三部分组成:相关性得分(页面因素),页面等级得分(非页面因素)和行业得分(非页面因素):
相关性得分(RS)= 20%,页面等级值(PR) = 40%,行业得分(LS) = 40%
其中:
RS (相关性得分:页面相关度) --是所有
SEO
努力的转换结果;
PR (页面等级得分:外部链接度) --是所有建立链接的努力的转换结果;
LS (行业得分:专家文件链接度) --是得自专家文件的链接的转换结果;
从上述结果不难看出,页面优化的得分只占到20%,Google显然已将重心转至非页面因子上,而把排名控制权越来越多地从网站管理员手中夺回来。假若一个水平一般般的优化专家可以拿到RS中的10分,而一个水平很高的优化专家最高也不过能拿到18,19分,大家可以看到:这两个水平悬殊的优化专家之间的差别仅仅只有8分而已!
Hilltop算法是否以实时方式运行
Google所拥有的服务器体系架构就是网络上分布的一万台奔腾级服务器。而一旦了解了Hilltop算法后,我们很难相信这样的奔腾服务器能够具备如此的处理能力:试想一下,首先要从成千上万的主题性文件中找到“专家文件”,然后计算目标网页自这些专家文件的链接的得分,然后再将数值返回Google算法的其它排名系统,并做进一步处理—而所有这些要在大约0.07秒内--这个让Google举世闻名的搜索速度内完成。确实使人难以置信。
Hilltop算法的运行频率及涵盖范围
我们认为,要保证Google一贯的“闪电般”搜索速度,Google会对搜索频率较高(热门)的查询词(即所谓的“商业词”黑名单)定期运行批处理,并将结果存储起来供日后使用。Google的数据库拥有数目庞大的高查询频率的查询词,收集自实地搜索和其AdWords自助广告系统中所使用的关键词。Google很可能对关键词搜索次数设置了上限值,凡搜索频率高于此阈值的查询词都将被纳入Hilltop系统,然后Hilltop系统再对收集的所有高查询频率关键词定期运行批处理,可能一个月一次。增量级的稍小规模的批处理可能会频繁一些。 同时,每个月将对Hilltop系统运行批处理后的结果对Google的万台服务器的数据库进行同步更新,但稍小规模的批处理的数据库更新会更加频繁一些。
对于那些用户查询频率不算高,因而无此“荣幸”被纳入Hilltop算法的查询词语,Google仍将使用原来的算法并显示原来的排名结果。因而对于那些高度明确或专业化的关键词,由于它们被排除在新算法的范围之内,因而有望保持原来的排名。
Hilltop算法为何经过如此长时间才投入使用
Google早在2003年2月就获得了该专利,但在实际投入使用前,需要首先保证新算法和Google当时所使用的页面等级和页面相关性系统的完全兼容性,所以需要对其兼容性做大量测试,然后再评估算法整合后所提供的结果,再做精工调整,然后是进一步的繁复测试…我想所有这些都需要大量时间。
Google新算法的不利方面/瑕疵
经过进一步分析,我们发现了该算法存在着的若干缺陷和不足:
Hilltop的前提是每个专家文件都是完全公正的,且无欺骗和人工操纵成分。然而情况可能并非如此理想。专家文件的一个小小污点就可以对排名产生极大的负面影响。
Hilltop意图通过“权威性”专家文件的链接来确定一个网页的行业可信度,但又不能够明确保证这些所谓的“专家文件”的”“量”确是名副其实。
运行Hilltop算法需要大量的计算机处理能力,因而我们猜测Hilltop算法(可能)是每个月对收集到的全部高频率(热门)查询词运行一次批处理。由于Google算法将40%重心转移至Hilltop,且Hilltop算法运行后的得分会保持至下一次批处理,因而在此期间搜索结果很可能不会有太大变动。此外,由于“专家”网页的投票方式往往不会有太大变动,因而在某段时期内我们可能只会看到一些“陈旧”的搜索结果。这一点悖离了搜索引擎的“提供最新、最好”的查询结果的宗旨。除了“权威网页”,用户同样希望看到一些新鲜的内容,然而对“新”Google而言,用户只有寄望于那些查询频率不太高,从而未被纳入Hilltop系统的查询词语上看到“新鲜”的查询结果了。
新站点对热门查询词的排名的难度将越发加大。看来对于那些特别热门的查询词,Google对新网站或新内容的排名的门槛是越来越高了。
商业性站点要链向网络分类目录,贸易协会,政府贸易机构,教育机构,公益性组织的站点并非难事,故而这样的站点会占据搜索结果的前十名位置。
哪些站点是Google新算法最可能的殃及者?
成员站点/域群集/运行于相同服务器下的MLM(多层营销系统程序)程序。
过度依赖“页面”优化因子的网站。
依赖高度竞争性的查询词语来获得访问量的网站。
对网站拥有者的若干建议:
排名规则已发生重大改变,网站的成功推广需从提高PR值及获得更多来自“专家文件”的链接着手;
尽可能为更多主流网上分类目录(DMOZ,Yahoo,About,LookSmart等),贸易目录,黄页,贸易协会和资源页等所收录;
避免使用域群集/成员程序或带有成员性质的系统;
避免来自可疑的FFA站点及链接工厂的互惠链接。
若干需要澄清的传言:
关于“过度优化会受到惩罚”之说--过滤优化本身就是一种SPAM,因而受到惩罚也是理所当然的事情。然而当前大多数商业网站所受到的排名冲击并非由于受到惩罚,而是由Google将重心从页面因子转至非页面因子而造成的。网站的良好优化仍必不可少。
关于“建立外部链接不再重要”之说--建立链接流行度还是和从前一样举足轻重,甚至还有可能会更加重要。Google专利的页面等级算法仍旧占据举足轻重的地位。
关于“Google开始使用‘商业词’过滤名单”之说--Google并没有使用任何“过滤名单”来惩罚商业站点。Google也无意去“惩罚”或“筛掉”任何东西,它所力求的只是建立一个能够识别最具备相关性网页的系统。
站点收录进DMOZ,Google目录和商业目录收录会让Google认为该站点属商业性网站,从而对其进行惩罚--正相反,由于这些目录都是质量非常之高的“专家文件”,因而得到这些目录的链接不但不会受到惩罚,反而会带给你较高的收益。
随着Google对其算法的大更新,我们不得不承认,要想让网站得到好的排名真是越来越不容易了。若只采用简单的优化技术,如元标识(Meta)或页面优化,几乎没办法得到理想排名。我们需要顾及很多的算法变量,而不仅仅是一个Meta Tags。
搜索引擎优化
会更为专业化。老式的优化伎俩已经不管用或收效甚微了。现在需要计划和实施的是全方位的
SEO
策略。为保证成效,
SEO
专家现在需要做的是投入更多的智慧、研究、分析、计划和时间。这样的话,
SEO
的优化“成本”亦将逐渐增高。
PPC(付费点击)的价格会继续攀升。PPC广告方式不但会成为网上营销策略的一个主要组成部分,而且需要保证相应的搜索引擎访问量。现在,网站的外部链接和页面等级愈加重要。它对排名的影响更加重要。
搜索引擎优化
和建立链接的结合已势在必行。此外,搜索引擎排名算法的更新不仅会越加频繁,而且幅度会越来越大。现在,定期的
搜索引擎优化
维护变得尤为重要。对网站的
搜索引擎优化
不仅是必须的,而且大有裨益。
很多网站都丢掉了它们原来的好排名,因而尤其需要搜索优化专家。每一次更新算法都是对
搜索引擎优化
人员名单的一次缩水。搜索引擎的优化和排名生意变得愈加困难,然而也愈加重要了。