谷歌搜寻算法

生活百科 2023-01-26 15:13生活百科www.aizhengw.cn

谷歌搜寻算法

谷歌算法始于PageRank,这是1997年拉里·佩奇(Larry Page)在史丹福大学读博士学位时开发的。佩奇的创新性想法是:把整个网际网路複製到本地资料库,然后对网页上所有的连结进行分析。基于入连结的数量和重要性、及锚文本对网页的受欢迎程度进行评级,也就是通过网路的集体智慧确定哪些网站最有用。随着谷歌迅速成为网际网路上最成功的搜寻引擎,佩奇和谷歌的另一名创始人塞吉·布林(Sergey Brin)将PageRank这一简单概念看做谷歌的最根本创新。PageRank具有其优势,为带来高质量的搜寻结果做出了贡献。但这种过度依靠外链分析单一算法也具有弊端,那就是很多站长採取作弊手法来增加网站的外链,因此网路上有很多垃圾外链。为了应对这种情况谷歌13年更新了其核心算法,那就是蜂鸟算法(Hummmingbird)。在此套算法中,PageRank仍旧起很大作用,但是已经不是唯一的排名机制!随着时间的推移,外链在排名中所起的作用将逐渐衰落!

基本介绍

  • 中文名:谷歌搜寻算法
  • 始于:PageRank
  • 时间:1997年
  • 人物:拉里·佩奇

算法简介

谷歌搜寻算法
这是一个很普通的搜寻,谷歌每天要处理成千上万的这种搜寻。但事实上这一搜寻过程十分複杂,可能使一些搜寻引擎误解。如果把这些单词输入到必应,第一个结果是美国国家橄榄球联盟的历年球员名单,其中有一个名叫Lawyer Milloy。搜寻结果中的下面几页,也没有与律师Siwek相关的内容。
这一对比显示出谷歌算法的强大,甚至可以说是智慧型,而这是通过反覆的修正实现的。看起来谷歌拥有解读用户需求的神奇力量——不论是多幺生僻的搜寻,或是有拼写错误。谷歌将这种能力称为搜寻质量,并且多年来一直竭力完善算法,以产生精确的搜寻结果。
2013年9月27日,谷歌公布已推出“蜂鸟”(Hummingbird)算法,彻底革新代替旧版搜寻算法,以应对来自网路用户更长、更複杂的查询。

算法创始

但这并不是故事的全部。人们信赖PageRank是因为它是可以进行确认的,但要提供最有用的结果还需要其他技术。这涉及对某些信号、上下文的利用,这样对于任何查询,搜寻引擎都能将最有用的结果排在最前面。

背景知识

网路搜寻是一个多方过程。首先,谷歌机器人获取每个可访问网站的内容。这些数据将被分解成一个索引(通过文字进行组织,就像书本的目录),这样就可以根据内容找到任何页面。每当用户键入一个查询,谷歌就会在索引中搜寻相关页面,然后返回一个包含多达数百万页面的列表。最複杂的是对列表进行排序,也就是决定哪些页面应该出现在最上面。
此时,上下文便有了用武之地。所有搜寻引擎都会引入上下文,但没有一个像谷歌那样引入得那样多、套用那样自如。PageRank本身也是一个信号,同时也是页面的一个属性(指其相对于其他网页的重要性),该属性可以帮助确定其与查询内容的相关性,其中的一些信号在现在看来是显而易见的。

最佳化搜寻

一直以来,谷歌算法都对页面的标题给与特别的关注,因此标题成为确定相关性的重要信号。另一个重要技术是锚文本,指的是超连结中的可见文本。因此, “当你进行搜寻时,搜寻引擎总能给出正确的页面,即使该页面中没有你找的关键字。”这是谷歌早期架构师斯科特·哈桑(Scott Hassa)的观点,他曾与佩奇和布林一起在斯坦福工作。之后,搜寻引擎关注的信号还包括新鲜度(对于一些查询,新近的页面比较早的页面更有价值)和地理位置(谷歌知道搜寻者的大致地理坐标,会将本地信息排在前面)等。谷歌目前使用200多种信号来帮助确定搜寻结果的排序。
谷歌工程师发现,一些最重要的信号可能来自谷歌本身。PageRank将受欢迎程度植入了搜寻引擎:成千上万的网站民主地决定将连结指向哪些网站。但辛格表示,谷歌工程师还利用了另一种民主 ——成千上万使用谷歌搜寻的用户。用户在搜寻过程中产生的数据被证明同样很有价值,这些数据包括他们点击哪些结果、不满意时对关键字的更改、查询关键字与所处地理位置的关係等。这一过程的最直接例子就是谷歌所说的“个性化搜寻”——这是一个可选功能,利用用户的搜寻历史和地理位置来确定他想要找的内容(使用这项功能需要先登录谷歌账号)。更通常的方法是,谷歌利用其收集的大量数据支持其算法,谷歌对此有极深的理解,可以解读隐秘查询的複杂意图。

识别语义

谷歌以善于鼓励这些创新而闻名,每年公司都会举办“疯狂搜寻创意”内部展示活动,以便鼓励那些离奇但有套用潜力的创新。但大多数时候,改进的过程是充满艰辛的,需要矢志不渝的精神,需要面对尝试过程中的打击。有一个不成功的搜寻已经成为传奇:2001年,辛格得知输入“audrey fino”时无法搜到预期内容,而只是返回一些讚扬奥黛丽·赫本(Audrey Hepburn)的印度网页,因为在印度语中“fino”是好的意思。辛格说:“我们知道audrey fino是个人名,但我们的系统没这幺聪明。”
这一失败使辛格花了多年时间,试图改进谷歌对姓名的搜寻结果——因为姓名占总搜寻量高达8%。为了解决这一问题,他不得不掌握“bi-gram拆分”,也就是将多个词分割成独立的单元。比如,“new york”合在一起组成一个bi-gram,指的是纽约。但也有三个字的情况,比如“new york times”,意思是纽约时报,很明显二者指的不是同一样东西。如果用户输入的是“new york times square”,意思又变成了纽约时代广场。人类可以很容易做出区分,而谷歌不是由人工控制的,它依靠的是算法。
“Mike Siwek”这一搜寻可以解释谷歌是如何解决这一问题的。辛格输入显示代码的命令后,我们就可以看到信号是如何决定搜寻结果排序的:通过bi-gram可以确定mike siwek是一个人名,lawyer是一个同义词,mi是一个地名。辛格说:“从工程师的角度进行解构,系统会对这些词进行分割,它会发现lawyer不是姓氏,siwek不是中间名。同时lawyer也不是密西根的一个镇,因此它是attorney的同义词。”
这是谷歌从无数次搜寻中获得的可贵知识。石头可以是“rock”,可以是“stone”,还可以是“boulder”(漂石)。如果用户输入“rokc”,谷歌仍会知道他想找的是“rock”。但如果在“rokc”前加“little”,谷歌则会知道这是“Arkansas”(阿肯色州)的首府。“Arkansas”的缩写是 “ark”,与诺亚方舟同形,但谷歌会将二者区分开来。辛格说:“搜寻中最重要的是理解用户的意图,因此你不是在匹配词语,而是在匹配意思。”
谷歌一直在不断改进。近期,谷歌工程师莫琳·海曼斯(Maureen Heymans)发现了“Cindy Louise Greenslade”的搜寻结果的问题。用户输入这些单词时,算法会认为应该找一个名叫Cindy Louise的人,于是在加利福尼亚的加登格罗夫市找到了一名心理学家,却没有把姓名为“Cindy Louise Greenslade”的人的网页放在结果的前十名。海曼斯发现,这是因为“Cindy Louise Greenslade”习惯将名字缩写成“Cindy L. Greenslade”。她表示:“我们的搜寻引擎应该更聪明一点。”于是她增加了一个信号,用来寻找中间名的缩写。现在正确的结果已经被排在了第五位。

不断创新

在任何时候,谷歌高效运转的测试系统都会进行几十个这种改进。谷歌在全世界专门僱佣了上百人,这些人坐在家里的电脑前判断更改后的结果是更好还是更差。但谷歌还有一个更大的测试团队,这就是成千上万的谷歌用户,他们不知不觉地加入了这项长期的质量实验。
每当工程师想测试一项技术调整时,他们会在一小批随机用户中运行这些算法,而绝大多数的用户扮演的是参照组的角色。需要测试的更改太多,因此谷歌放弃了一次只测试一项技术调整的策略。搜寻质量工程师派屈克·赖利(Patrick Riley)表示:“在大多数搜寻过程中,你同时都处于多个‘实验组’和‘参照组’之中。”但他随后又做出了更正:“事实上,所有搜寻都被捲入了实验之中,因此用户每次用谷歌搜寻,都作了一次‘小白鼠’。”
这种灵活性——增加信号、更改代码、立即测试的能力——就是谷歌团队为什幺说他们可以应对来自必应、Twitter和Facebook的任何挑战的原因。事实上,在过去的六个月中,谷歌进行了200多项改进,其中一些似乎在模仿(但超越了)它的竞争对手(谷歌表示这只是巧合,称其多年来一直在增加新功能),其中之一就是实时搜寻。
佩奇数月前曾表示谷歌应该每一秒钟都搜寻整个网路,因此使这一功能备受期待。当用户搜寻具有时效性的话题时,谷歌结果页面的10个蓝色连结中会有一个“最新结果”框。该框带有拖动条,显示的是从新闻媒体、部落格和Twitter等获得最新内容。同样,谷歌使用信号来确保最有用的tweet(Twitter上发布的讯息)出现在实时信息框中。
除了实时搜寻,谷歌还引入了一项新功能,称作“Goggles”。该功能可以将用户手机上拍摄的照片视作搜寻请求。谷歌一直努力将搜寻变成一种随时随地的行为,“Goggles”也是该努力的一部分。有了摄像和语音识别功能,智慧型手机就会变成你的眼睛和耳朵。只要找到正确的信号,任何东西都可以变成搜寻请求。

排名因素

Google 排名取决于以下各项,如果您的网站能够做到的话,在排名是有相当的位置的了。
关键字:
1.url中的关键字(第一和第二个字是最有价值的......)
2.域名中的关键字(英文网站的优势)
(Head部分)
3.Title tag中的关键字及与页面正文的相关性(最佳长度为55个英文字元,包含空格等其他字元)
4.Description tag的撰写,是否包含相关关键字及是否能很好的概述正文内容(最佳长度为155个英文字元,包含空格等其他符合。现在谷歌在搜寻结果中不再完全依赖网页原有的title 及description,可根据搜寻词摘取网页内容来自定义title及description)
5.Keywords tag中的关键字(小于10个字,单个关键字必须在页面Body部分出现2次以上才有效,否则可能会被评估为Spam而受到处罚,官方曾说明说不再依据此参数评价,但其实仍在使用)
(Body部分)
6.关键字在Body文字部分的密度(5 - 20% - (all keywords/ total words))
7.单个关键字密度(1 - 6% - (each keyword/ total words))
8.在H1、H2、H3中的关键字(使用H1、H2、H3字型)
9.关键字字型尺寸(使用黑体、粗体、斜体......)
10.关键字接近度(2个关键字之间邻近的是最佳)
11.关键字短语顺序
(其他部分)
12.关键字在Alt文字中(图形中的Alt属性)
13.关键字在外部站点连结中(锚文本)
导航-内部连结部分:
14.内部页面的关键字(连结页面应该包含关键字)
15.所有内部连结必须是有效的
16.结构树(任何页面不超过4层深度连结)
17.低级页面之间适当的连结
导航-外部连结部分:
18.外部页面的关键字(连结须指向优秀站点,不要连结frame)
19.外部连结的锚文本(应该在此上展开主题和叙述)
20.连结稳定性(避免连结随时变换)
21.所有外部连结是有效的
22.少于100个外部连结(官方称限制100个,实际容许2-3次2000个)
页面上的其他因素:
24.域名等级(.edu是最高等级,其次是.org,而.com由于包含很多spam信息,所以会受到严格审查)
25.档案尺寸(页面尺寸绝对不要超过100K,小于40K的为最佳)
26.URL中的连字元(1个或2个是最佳的,4个以上将被认为是spam,10个很可能被降级)
27.页面更新率(对于新闻、零售、拍卖等站点更新越快越好)
28.页面数量的更新率(老页面与新页面的比值)
29.连结的的更新率(尚未能分析)
30.更新频率(更新频率=蜘蛛的抓取频率)
31.页面主题
32.关键字衍生.....
33.语义关联(同义词等...)
34.潜在的语义索引
35.URL长度(儘可能的小,在IE中只允许2000个字元以内,最好控制在100字元以内)
36.站点大小(Google认为站点越大说明更大的资金支持、更好的组织、更好的架构,因此它会是好的站点)
37.站点年龄(越老越好)
38.页面的年龄与站点上其他页面的年龄排名不利因素(三)
39.在图像的form中有文字描述,但Body中没真正的文字描述;
40.镜像站点
41.过度最佳化
42.连结一个坏站点(不要连结frame....,定期检查每个外部连结站点在Google的状态)
43.重定向或刷新metatags(除非用户点击,否则不要自动跳转页面)
44.不要使用一些不文明的辞彙
45.毒药单词
46.过多的横向连结(在你的WEB伺服器中有多个站点,它们的横向连结会被视为无效的投票)
47.图片、文字的反盗链
48.关键字重複填充(降级处理)
49.关键字稀释(页面存在过多的非相关关键字,将会降低你真实内容的重要性)
50.页面内容编辑会降低一致性(定期会对老的cache与新的cache进行比对,如果发现关键字、主题变化了,
将会影响它的评价,这是针对SEO的有效工具)
51.内容改变频率( 过于频繁是不利的)
52.锚文本更新率(过于频繁是不利的)
53.动态页面(这是搜寻引擎的缺陷,可採用缩短URL,减少变数等办法,最好不要使用动态页面)
54.过多的JS代码(不要使用重定向和隐藏连结功能)
55.Flash页面(搜寻引擎的蜘蛛是不能抓取flash内容的,如果要用flash页面,须同时有一个静态入口页面)
56.使用frame
57.Robot中设定了“no index”的tag
58.单个像素的连结(会被认为是一个鬼祟的连结)
59.不可见的文字(文字与背景色相同,页面上不可见,但能被蜘蛛检索到)
60.门页
61.内容重複(通常选一个最老的推送到前面,把其他的推送下去)
62.HTML代码需符合W3C标準
目前,国内外的SEO都在研讨网站排名的要素,听说有一百多种。不过可以把握的技巧无非都是最根本的那几种。目前,只需你可以针对你的网站把以上的办法都做好,那幺在google上得到一个好的排名应该是天经地义的事情
上一篇:谢彬(着名爱国学者) 下一篇:KingofKings

Copyright@2015-2025 www.aizhengw.cn 癌症网版板所有