谷歌搜寻算法

谷歌算法始于PageRank，这是1997年拉里·佩奇(Larry Page)在史丹福大学读博士学位时开发的。佩奇的创新性想法是：把整个网际网路複製到本地资料库，然后对网页上所有的连结进行分析。基于入连结的数量和重要性、及锚文本对网页的受欢迎程度进行评级，也就是通过网路的集体智慧确定哪些网站最有用。随着谷歌迅速成为网际网路上最成功的搜寻引擎，佩奇和谷歌的另一名创始人塞吉·布林(Sergey Brin)将PageRank这一简单概念看做谷歌的最根本创新。PageRank具有其优势，为带来高质量的搜寻结果做出了贡献。但这种过度依靠外链分析单一算法也具有弊端，那就是很多站长採取作弊手法来增加网站的外链，因此网路上有很多垃圾外链。为了应对这种情况谷歌13年更新了其核心算法，那就是蜂鸟算法（Hummmingbird)。在此套算法中，PageRank仍旧起很大作用，但是已经不是唯一的排名机制！随着时间的推移，外链在排名中所起的作用将逐渐衰落！

基本介绍

中文名：谷歌搜寻算法
始于：PageRank
时间：1997年
人物：拉里·佩奇

算法简介

谷歌搜寻算法

这是一个很普通的搜寻，谷歌每天要处理成千上万的这种搜寻。但事实上这一搜寻过程十分複杂，可能使一些搜寻引擎误解。如果把这些单词输入到必应，第一个结果是美国国家橄榄球联盟的历年球员名单，其中有一个名叫Lawyer Milloy。搜寻结果中的下面几页，也没有与律师Siwek相关的内容。

这一对比显示出谷歌算法的强大，甚至可以说是智慧型，而这是通过反覆的修正实现的。看起来谷歌拥有解读用户需求的神奇力量——不论是多幺生僻的搜寻，或是有拼写错误。谷歌将这种能力称为搜寻质量，并且多年来一直竭力完善算法，以产生精确的搜寻结果。

2013年9月27日，谷歌公布已推出“蜂鸟”(Hummingbird)算法，彻底革新代替旧版搜寻算法，以应对来自网路用户更长、更複杂的查询。

算法创始

但这并不是故事的全部。人们信赖PageRank是因为它是可以进行确认的，但要提供最有用的结果还需要其他技术。这涉及对某些信号、上下文的利用，这样对于任何查询，搜寻引擎都能将最有用的结果排在最前面。

背景知识

网路搜寻是一个多方过程。首先，谷歌机器人获取每个可访问网站的内容。这些数据将被分解成一个索引(通过文字进行组织，就像书本的目录)，这样就可以根据内容找到任何页面。每当用户键入一个查询，谷歌就会在索引中搜寻相关页面，然后返回一个包含多达数百万页面的列表。最複杂的是对列表进行排序，也就是决定哪些页面应该出现在最上面。

此时，上下文便有了用武之地。所有搜寻引擎都会引入上下文，但没有一个像谷歌那样引入得那样多、套用那样自如。PageRank本身也是一个信号，同时也是页面的一个属性(指其相对于其他网页的重要性)，该属性可以帮助确定其与查询内容的相关性，其中的一些信号在现在看来是显而易见的。

最佳化搜寻

一直以来，谷歌算法都对页面的标题给与特别的关注，因此标题成为确定相关性的重要信号。另一个重要技术是锚文本，指的是超连结中的可见文本。因此， “当你进行搜寻时，搜寻引擎总能给出正确的页面，即使该页面中没有你找的关键字。”这是谷歌早期架构师斯科特·哈桑(Scott Hassa)的观点，他曾与佩奇和布林一起在斯坦福工作。之后，搜寻引擎关注的信号还包括新鲜度(对于一些查询，新近的页面比较早的页面更有价值)和地理位置(谷歌知道搜寻者的大致地理坐标，会将本地信息排在前面)等。谷歌目前使用200多种信号来帮助确定搜寻结果的排序。

谷歌工程师发现，一些最重要的信号可能来自谷歌本身。PageRank将受欢迎程度植入了搜寻引擎：成千上万的网站民主地决定将连结指向哪些网站。但辛格表示，谷歌工程师还利用了另一种民主 ——成千上万使用谷歌搜寻的用户。用户在搜寻过程中产生的数据被证明同样很有价值，这些数据包括他们点击哪些结果、不满意时对关键字的更改、查询关键字与所处地理位置的关係等。这一过程的最直接例子就是谷歌所说的“个性化搜寻”——这是一个可选功能，利用用户的搜寻历史和地理位置来确定他想要找的内容(使用这项功能需要先登录谷歌账号)。更通常的方法是，谷歌利用其收集的大量数据支持其算法，谷歌对此有极深的理解，可以解读隐秘查询的複杂意图。

识别语义

谷歌以善于鼓励这些创新而闻名，每年公司都会举办“疯狂搜寻创意”内部展示活动，以便鼓励那些离奇但有套用潜力的创新。但大多数时候，改进的过程是充满艰辛的，需要矢志不渝的精神，需要面对尝试过程中的打击。有一个不成功的搜寻已经成为传奇：2001年，辛格得知输入“audrey fino”时无法搜到预期内容，而只是返回一些讚扬奥黛丽·赫本(Audrey Hepburn)的印度网页，因为在印度语中“fino”是好的意思。辛格说：“我们知道audrey fino是个人名，但我们的系统没这幺聪明。”

这一失败使辛格花了多年时间，试图改进谷歌对姓名的搜寻结果——因为姓名占总搜寻量高达8%。为了解决这一问题，他不得不掌握“bi-gram拆分”，也就是将多个词分割成独立的单元。比如，“new york”合在一起组成一个bi-gram，指的是纽约。但也有三个字的情况，比如“new york times”，意思是纽约时报，很明显二者指的不是同一样东西。如果用户输入的是“new york times square”，意思又变成了纽约时代广场。人类可以很容易做出区分，而谷歌不是由人工控制的，它依靠的是算法。

“Mike Siwek”这一搜寻可以解释谷歌是如何解决这一问题的。辛格输入显示代码的命令后，我们就可以看到信号是如何决定搜寻结果排序的：通过bi-gram可以确定mike siwek是一个人名，lawyer是一个同义词，mi是一个地名。辛格说：“从工程师的角度进行解构，系统会对这些词进行分割，它会发现lawyer不是姓氏，siwek不是中间名。同时lawyer也不是密西根的一个镇，因此它是attorney的同义词。”

这是谷歌从无数次搜寻中获得的可贵知识。石头可以是“rock”，可以是“stone”，还可以是“boulder”(漂石)。如果用户输入“rokc”，谷歌仍会知道他想找的是“rock”。但如果在“rokc”前加“little”，谷歌则会知道这是“Arkansas”(阿肯色州)的首府。“Arkansas”的缩写是 “ark”，与诺亚方舟同形，但谷歌会将二者区分开来。辛格说：“搜寻中最重要的是理解用户的意图，因此你不是在匹配词语，而是在匹配意思。”

谷歌一直在不断改进。近期，谷歌工程师莫琳·海曼斯(Maureen Heymans)发现了“Cindy Louise Greenslade”的搜寻结果的问题。用户输入这些单词时，算法会认为应该找一个名叫Cindy Louise的人，于是在加利福尼亚的加登格罗夫市找到了一名心理学家，却没有把姓名为“Cindy Louise Greenslade”的人的网页放在结果的前十名。海曼斯发现，这是因为“Cindy Louise Greenslade”习惯将名字缩写成“Cindy L. Greenslade”。她表示：“我们的搜寻引擎应该更聪明一点。”于是她增加了一个信号，用来寻找中间名的缩写。现在正确的结果已经被排在了第五位。

不断创新

在任何时候，谷歌高效运转的测试系统都会进行几十个这种改进。谷歌在全世界专门僱佣了上百人，这些人坐在家里的电脑前判断更改后的结果是更好还是更差。但谷歌还有一个更大的测试团队，这就是成千上万的谷歌用户，他们不知不觉地加入了这项长期的质量实验。

每当工程师想测试一项技术调整时，他们会在一小批随机用户中运行这些算法，而绝大多数的用户扮演的是参照组的角色。需要测试的更改太多，因此谷歌放弃了一次只测试一项技术调整的策略。搜寻质量工程师派屈克·赖利(Patrick Riley)表示：“在大多数搜寻过程中，你同时都处于多个‘实验组’和‘参照组’之中。”但他随后又做出了更正：“事实上，所有搜寻都被捲入了实验之中，因此用户每次用谷歌搜寻，都作了一次‘小白鼠’。”

这种灵活性——增加信号、更改代码、立即测试的能力——就是谷歌团队为什幺说他们可以应对来自必应、Twitter和Facebook的任何挑战的原因。事实上，在过去的六个月中，谷歌进行了200多项改进，其中一些似乎在模仿(但超越了)它的竞争对手(谷歌表示这只是巧合，称其多年来一直在增加新功能)，其中之一就是实时搜寻。

佩奇数月前曾表示谷歌应该每一秒钟都搜寻整个网路，因此使这一功能备受期待。当用户搜寻具有时效性的话题时，谷歌结果页面的10个蓝色连结中会有一个“最新结果”框。该框带有拖动条，显示的是从新闻媒体、部落格和Twitter等获得最新内容。同样，谷歌使用信号来确保最有用的tweet(Twitter上发布的讯息)出现在实时信息框中。

除了实时搜寻，谷歌还引入了一项新功能，称作“Goggles”。该功能可以将用户手机上拍摄的照片视作搜寻请求。谷歌一直努力将搜寻变成一种随时随地的行为，“Goggles”也是该努力的一部分。有了摄像和语音识别功能，智慧型手机就会变成你的眼睛和耳朵。只要找到正确的信号，任何东西都可以变成搜寻请求。

排名因素

Google 排名取决于以下各项，如果您的网站能够做到的话，在排名是有相当的位置的了。
关键字：
1.url中的关键字（第一和第二个字是最有价值的......）
2.域名中的关键字（英文网站的优势）
（Head部分）
3.Title tag中的关键字及与页面正文的相关性（最佳长度为55个英文字元，包含空格等其他字元）
4.Description tag的撰写，是否包含相关关键字及是否能很好的概述正文内容（最佳长度为155个英文字元，包含空格等其他符合。现在谷歌在搜寻结果中不再完全依赖网页原有的title 及description，可根据搜寻词摘取网页内容来自定义title及description）
5.Keywords tag中的关键字（小于10个字，单个关键字必须在页面Body部分出现2次以上才有效，否则可能会被评估为Spam而受到处罚，官方曾说明说不再依据此参数评价，但其实仍在使用）
(Body部分)
6.关键字在Body文字部分的密度（5 - 20% - (all keywords/ total words)）
7.单个关键字密度（1 - 6% - (each keyword/ total words)）
8.在H1、H2、H3中的关键字（使用H1、H2、H3字型）
9.关键字字型尺寸（使用黑体、粗体、斜体......）
10.关键字接近度（2个关键字之间邻近的是最佳）
11.关键字短语顺序
（其他部分）
12.关键字在Alt文字中（图形中的Alt属性）
13.关键字在外部站点连结中（锚文本）
导航－内部连结部分：
14.内部页面的关键字（连结页面应该包含关键字）
15.所有内部连结必须是有效的
16.结构树（任何页面不超过4层深度连结）
17.低级页面之间适当的连结
导航－外部连结部分：
18.外部页面的关键字（连结须指向优秀站点，不要连结frame）
19.外部连结的锚文本（应该在此上展开主题和叙述）
20.连结稳定性（避免连结随时变换）
21.所有外部连结是有效的
22.少于100个外部连结（官方称限制100个，实际容许2－3次2000个）
页面上的其他因素：
24.域名等级（.edu是最高等级，其次是.org，而.com由于包含很多spam信息，所以会受到严格审查）
25.档案尺寸（页面尺寸绝对不要超过100K，小于40K的为最佳）
26.URL中的连字元（1个或2个是最佳的，4个以上将被认为是spam，10个很可能被降级）
27.页面更新率（对于新闻、零售、拍卖等站点更新越快越好）
28.页面数量的更新率（老页面与新页面的比值）
29.连结的的更新率（尚未能分析）
30.更新频率（更新频率=蜘蛛的抓取频率）
31.页面主题
32.关键字衍生.....
33.语义关联（同义词等...）
34.潜在的语义索引
35.URL长度（儘可能的小，在IE中只允许2000个字元以内，最好控制在100字元以内）
36.站点大小（Google认为站点越大说明更大的资金支持、更好的组织、更好的架构，因此它会是好的站点）
37.站点年龄（越老越好）
38.页面的年龄与站点上其他页面的年龄排名不利因素（三）
39.在图像的form中有文字描述，但Body中没真正的文字描述；
40.镜像站点
41.过度最佳化
42.连结一个坏站点（不要连结frame....，定期检查每个外部连结站点在Google的状态）
43.重定向或刷新metatags（除非用户点击，否则不要自动跳转页面）
44.不要使用一些不文明的辞彙
45.毒药单词
46.过多的横向连结（在你的WEB伺服器中有多个站点，它们的横向连结会被视为无效的投票）
47.图片、文字的反盗链
48.关键字重複填充（降级处理）
49.关键字稀释（页面存在过多的非相关关键字，将会降低你真实内容的重要性）
50.页面内容编辑会降低一致性（定期会对老的cache与新的cache进行比对，如果发现关键字、主题变化了，
将会影响它的评价，这是针对SEO的有效工具）
51.内容改变频率（过于频繁是不利的）
52.锚文本更新率（过于频繁是不利的）
53.动态页面（这是搜寻引擎的缺陷，可採用缩短URL,减少变数等办法，最好不要使用动态页面）
54.过多的JS代码（不要使用重定向和隐藏连结功能）
55.Flash页面（搜寻引擎的蜘蛛是不能抓取flash内容的，如果要用flash页面，须同时有一个静态入口页面）
56.使用frame
57.Robot中设定了“no index”的tag
58.单个像素的连结（会被认为是一个鬼祟的连结）
59.不可见的文字（文字与背景色相同，页面上不可见，但能被蜘蛛检索到）
60.门页
61.内容重複（通常选一个最老的推送到前面，把其他的推送下去）
62.HTML代码需符合W3C标準
目前，国内外的SEO都在研讨网站排名的要素，听说有一百多种。不过可以把握的技巧无非都是最根本的那几种。目前，只需你可以针对你的网站把以上的办法都做好，那幺在google上得到一个好的排名应该是天经地义的事情

谷歌搜寻算法

谷歌搜寻算法

基本介绍

算法简介

算法创始

背景知识

最佳化搜寻

识别语义

不断创新

排名因素

搜索

癌症治疗

癌症预防

癌症症状

谷歌搜寻算法

谷歌搜寻算法

基本介绍

算法简介

算法创始

背景知识

最佳化搜寻

识别语义

不断创新

排名因素

生活常识

搜索

癌症治疗

癌症预防

癌症症状