GOOGLE网页搜寻

生活百科 2023-01-26 10:45生活百科www.aizhengw.cn

GOOGLE网页搜寻

谷歌网页搜寻是一个搜寻引擎,由两个史丹福大学博士生Larry Page与Sergey Brin于1998年9月发明,Google Inc. 于1999年创立。谷歌网页搜寻技术,大部分在百度等搜寻引擎中也适用。同样,这些搜寻技术是来源于传统资料库检索技术。GOOGLE的“网页快照”功能,能从GOOGLE伺服器里直接取出快取的网页。

基本介绍

  • 中文名GOOGLE网页搜寻
  • 时间1998年9月
  • 发明者Larry Page与Sergey Brin
  • 所属公司谷歌

搜寻引擎简介

谷歌网页搜寻是一个搜寻引擎,由两个史丹福大学博士生Larry Page与Sergey Brin于1998年9月发明,Google Inc. 于1999年创立。cache用来搜寻GOOGLE伺服器上某页面的快取,这个功能同"网页快照",通常用于查找某些已经被删除的死连结网页,相当于使用普通搜寻结果页面中的"网页快照"功能。

谷歌搜寻意义

谷歌网页搜寻技术,大部分在等搜寻引擎中也适用。同样,这些搜寻技术是来源于传统资料库检索技术,因而,对这部分的学习,能为后续章节的资料库检索奠定基础,并能获得直观的认识。本部分结合套用实例的讲解也能让我们加深信息检索对解决实际问题、提高搜寻效率的认知。
本节中一些实例中的括弧“【】”中的内容直接在谷歌搜寻框中输入可查看效果,最快捷的方式是将实例的连结在新视窗中打开,既能看到输入的检索策略,也能直接看到搜寻效果。

高级搜寻说明

谷歌网页搜寻之高级搜寻需要注意的是,所有的搜寻语法和搜寻符号必须是半角状态(即英文输入模式)。很多搜寻语法也可以通过谷歌网页搜寻之高级搜寻来实现(如图2),在谷歌首页点击“高级”即可进入高级搜寻界面。

搜寻技术实例

默认模糊搜寻、自动拆分短语
默认模糊搜寻、自动拆分短语
GOOGLE无需用明文的“+”来表示逻辑“与”操作,只要空格就可以了。
示例搜寻所有包含关键字“易筋经”和“吸星大法”的中文网页
搜寻“易筋经 吸星大法”
结果已搜寻有关易筋经 吸星大法的中文(简体)网页。共约有726项查询结果,这是第1-10项。搜寻用时0.13秒。
注意文章中搜寻语法外面的引号仅起引用作用,不能带入搜寻栏内。
GOOGLE用减号“-”表示逻辑“非”操作
示例搜寻所有包含“易筋经”而不含“吸星大法”的中文网页
搜寻“易筋经 -吸星大法”
结果已搜寻有关易筋经 -吸星大法的中文(简体)网页。共约有5,440项查询结果,这是第1-10项。搜寻用时0.13秒。
注意这里的“+”和“-”号,是英文字元,而不是中文字元的“+”和“-”。,操作符与作用的关键字之间,不能有空格。比如“易筋经 - 吸星大法”,搜寻引擎将视为逻辑“与”操作,中间的“-”被忽略。
GOOGLE用大写的“OR”表示逻辑“或”操作。,关键字为中文的或查询似乎还有BUG,无法得到正确的查询结果。
示例搜寻包含布兰妮“Britney”或者披头士“Beatles”、或者两者均有的中文网页。
搜寻“britney OR beatles”
结果已搜寻有关britney OR beatles的中文(简体)网页。共约有14,600项查询结果,这是第1-10项。搜寻用时0.08秒。
搜寻“布兰妮 OR 披头士”
结果找不到和您的查询-布兰妮 OR 披头士-相符的网页。
注意小写的“or”,在查询的时候将被忽略;这样上述的操作实际上变成了一次“与”查询。
“+”和“-”的作用有的时候是相同的,都是为了缩小搜寻结果的範围,提高查询结果命中率。
例查阅天龙八部具体是哪八部。
分析如果光用“天龙八部”做关键字,搜寻结果有26,500项,而且排前列的主要与金庸的小说《天龙八部》相关,很难找到所需要的资讯。可以用两个方法减少无关结果。
1.如果你知道八部中的某一部,比如阿修罗,增加“阿修罗”关键字,搜寻结果就只有995项,可以直接找到全部八部,“天龙八部 阿修罗”。
2.如果你不知道八部中的任何一部,但知道这与佛教相关,可以排除与金庸小说相关的记录,查询结果为1,010项,可以迅速找到需要的资料,“天龙八部 佛教 -金庸”。
辅助搜寻 通配符、大小写、句子、忽略字元以及强制搜寻
辅助搜寻
GOOGLE不支持通配符,如“”、“?”等,只能做精确查询,关键字后面的“”或者“?”会被忽略掉。
GOOGLE对英文字元大小写不敏感,“GOD”和“god”搜寻的结果是一样的。
GOOGLE的关键字可以是词组(中间没有空格),也可以是句子(中间有空格),,用句子做关键字,必须加英文引号。
示例搜寻包含“long, long ago”字串的页面。
搜寻“"long, long ago"”
结果已向英特网搜寻"long, long ago". 共约有28,300项查询结果,这是第1-10项。搜寻用时0.28秒。
注意和搜寻英文关键字串不同的是,GOOGLE对中文字串的处理并不十分完善。比如,搜寻“"啊,我的太阳"”,我们希望结果中含有这个句子,事实并非如此。查询的很多结果,“啊”、“我的”、“太阳”等词语是完全分开的,但又不是“啊我的 太阳”这样的与查询。显然,GOOGLE对中文的支持尚有欠缺之处。
GOOGLE对一些网路上出现频率极高的词(主要是英文单词),如“i”、“com”,以及一些符号如“”、“.”等,作忽略处理,如果用户必须要求关键字中包含这些常用词,就要用强制语法“+”。
示例搜寻包含“Who am I ?”的网页。如果用“"who am i ?"”,“Who”、“I”、“?”会被省略掉,搜寻将只用“am”作关键字,所以应该用强制搜寻。
搜寻“"+who +am +i"”
结果已向英特网搜寻"+who +am +i". 共约有362,000项查询结果,这是第1-10项。搜寻用时0.30秒。
注意英文符号(如问号,句号,逗号等)无法成为搜寻关键字,加强制也不行。
高级搜寻 site,link,inurl,allinurl,intitle,allintitle
高级搜寻
“site”表示搜寻结果局限于某个具体网站或者网站频道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名範围内的页面,只需用“-网站/域名”。
示例搜寻中文教育科研网站(edu.cn)上所有包含“金庸”的页面。
搜寻“金庸 site:edu.cn”
结果已搜寻有关金庸 site:edu.cn的中文(简体)网页。共约有2,680项查询结果,这是第1-10项 。搜寻用时0.31秒。
示例搜寻包含“金庸”和“古龙”的中文新浪网站页面,
搜寻“金庸 古龙 site:sina.com.cn”
注意site后的冒号为英文字元,而且,冒号后不能有空格,否则,“site:”将被作为一个搜寻的关键字。,网站域名不能有“http”以及“www”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。诸如“金庸 site:edu.sina.com.cn/1/”的语法是错误的。
“link”语法返回所有连结到某个URL地址的网页。
共约有695项查询结果,这是第1-10项。搜寻用时0.23秒。
注意“link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被GOOGLE忽略。
inurl语法返回的网页连结中包含第一个关键字,后面的关键字则出现在连结中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源连结,然后,用第二个关键字确定是否有某项具体资料。INURL语法和基本搜寻语法的最大区别在于,前者通常能提供非常精确的专题资料。
示例查找MIDI曲“沧海一声笑”。
搜寻“inurl:midi 沧海一声笑”
结果已搜寻有关inurl:midi 沧海一声笑的中文(简体)网页。共约有14项查询结果,这是第1-10项。搜寻用时0.01秒。
示例查找微软网站上关于windows2000的安全课题资料。
搜寻“inurl:security windows2000 site:microsoft.com”
结果已在microsoft.com内搜寻有关 inurl:security windows2000的网页。共约有198项查询结果,这是第1-10项。搜寻用时0.37秒。
注意“inurl:”后面不能有空格,GOOGLE也不对URL符号如“/”进行搜寻。GOOGLE对“cgi-bin/phf”中的“/”当成空格处理。
allinurl语法返回的网页的连结中包含所有查询关键字。这个查询的对象只集中于网页的连结字元串。
示例查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程式(这个脚本是不安全的),表现在连结中就是“域名/cgi-bin/phf”。
语法“allinurl:"cgi-bin" phf +com”
搜寻已向英特网搜寻allinurl:"cgi-bin" phf +com. 共约有40项查询结果,这是第1-10项。搜寻用时0.06秒。
allintitle和intitle的用法类似于上面的allinurl和inurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。,只查询标题栏,通常也可以找到高相关率的专题页面。
示例查找日本明星藤原纪香的照片集。
搜寻“intitle:藤原纪香 写真”
结果已搜寻有关intitle:藤原纪香 写真的中文(简体)网页。共约有284项查询结果,这是第1-10项。搜寻用时0.03秒。
GOOGLE的罕用高级搜寻语法related,cache,info
related用来搜寻结构内容方面相似的网页。例搜寻所有与中文新浪网主页相似的页面(如网易首页,搜狐首页,中华网首页等),“related:www.sina.com.cn/index.shtml”。
cache用来搜寻GOOGLE伺服器上某页面的快取,这个功能同“网页快照”,通常用于查找某些已经被删除的死连结网页,相当于使用普通搜寻结果页面中的“网页快照”功能。
info用来显示与某连结相关的一系列搜寻,提供cache、link、related和完全包含该连结的网页的功能。
示例查找和新浪首页相关的一些资讯。
搜寻“info:www.sina.com.cn”
结果有关www.sina.com.cn的网页信息。
Google 提供这个网址的信息: 查看Google网页快照里www.sina.com.cn的存档 寻找和www.sina.com.cn类似的网页 寻找网页有连结到www.sina.com.cn 寻找网页包含有'www.sina.com.cn'

其他重要功能

目录服务 如果不想搜寻网页,而是想寻找某些专题网站,可以访问GOOGLE的分类目录“

Copyright@2015-2025 www.aizhengw.cn 癌症网版板所有