注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

罗维的博客

{ 关注机器学习、计算广告、自然语言处理、大规模数据处理等 }

 
 
 
 
 

日志

 
 

[经验总结] Google使用笔记  

2008-11-10 10:58:07|  分类: 思考与总结 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

罗维 (汇总于2008-11-2

1.  搜索结果要求不包含某些特定信息
Google
用减号“-”表示逻辑操作。“A –B”表示搜索包含A但没有B的网页。
示例:搜索所有包含搜索引擎历史但不含文化中国历史世界历史的中文网页
搜索:搜索引擎 历史 -文化 -中国历史 -世界历史

注意:这里的“ ”“-”号,是英文字符,而不是中文字符的。此外,操作符与作用的关键字之间,不能有空格。比如搜索引擎 - 文化,搜索引擎将视为关键字为搜索引擎文化的逻辑操作,中间的“-”被忽略。

2.  Google用大写的“OR”表示逻辑操作。搜索“A OR B”

3.  很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符等。Google对通配符支持有限。它目前只可以用“*”来替代单个字符, 而且包含“*”必须用""引起来。比如,“"*治国"”,表示搜索第一个为“以”,末两个为“治国”的四字短语,中间的“*”可以为任何字符。

4.  Google对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。

5.  Google的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符。示例:搜索关于第一次世界大战的英文信息。搜索:"world war I"

6.  Google对一些网路上出现频率极高的英文单词,如“I”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。搜索:“+www +的历史 internet”。

7.  对搜索的网站进行限制:“site”表示搜索结果局限于某个具体网站或者网站频道,如“www.sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com .cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。示例:搜索中文教育科研网站(edu.cn)上关于搜索引擎技巧的页面。搜索:搜索引擎 技巧 site:edu.cn”; 示例:上著名IT门户网站ZDNETCNET搜索一下关于搜索引擎技巧方面的资讯。搜索:“"search engine" tips site:www.zdnet.com OR site:www.cnet.com

注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http://”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。

8.  在某一类文件中查找信息“filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls.ppt.doc.rtfWordPerfect文档,Lotus1- 2-3文档,Adobe.pdf文档,ShockWave.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。

示例:搜索几个资产负债表的Office文档。

搜索:“资产负债表 filetype:doc OR filetype:xls OR filetype:ppt

9.  搜索的关键字包含在URL链接中:“inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示 在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。

示例:查找MIDI曲“沧海一声笑”。 搜索:“inurl:midi "沧海一声笑"

注意:“inurl:”后面不能有空格,Google也不对URL符号如“/”进行搜索。例如,Google会把“cgi-bin/phf”中的“/”当成空格处理。

allinurl”语法返回的网页的链接中包含所有作用关键字。这个查询的关键字只集中于网页的链接字符串。

示例:查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的),表现在链接中就是“域名/cgi-bin/phf”。

搜索:“allinurl:"cgi-bin" phf +com

10.搜索的关键字包含在网页标题中:“intitle”和“allintitle”的用法类似于上面的inurlallinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。 示例:查找日本明星藤原纪香的照片集。

搜索:“intitle:藤原纪香 "写真集"

11.搜索的关键字包含在网页的“锚”(anchor)链点内 ;所谓“锚”,就是在同一个网页中快速切换链接点。与URLTITLE类似,Google提供了两种对anchor的检索,“inanchor”和“allincnchor”。对此不作详述。

12.图片搜索:Google图像搜索目前支持的语法包括基本的搜索语法如“ ”“-”“OR”“site” “filetype:”。其中“filetype:”的后缀只能是几种限定的图片类似,如JPGGIF等。

如果要搜索的图片是分散的,则用google图片搜索;如果要搜索的图片通常是处于某个图片集合中的,则不适合用google图片搜索。

13.目录检索:如果不想搜索广泛的网页,而是想寻找某些专题网站,可以访问Google的分类目录http://directory.Google.com/,中文目录是http://directory.Google.com/Top/World/Chinese_Simplified/。 分类的网站目录一般由专人负责,分类明确,信息集中。因此读者应该养成这样的习惯:首先考虑所需要的信息能否在一个专门主题的网站上找到。不过需要说明的是,用目录检索,往往需要用户对查询的领域很熟悉。

目前 Google使用的分类目录采用了ODP的内容。“Open Directory Project”是网景公司所主持的一项大型公共网页目录。由全世界各地的义务编辑人员来审核挑选网页,并依照网页的性质及内容来分门别类。因此,在某一目录门类中进行搜索往往能有更高的命中率。另外,Google根据其专业的网页级别PageRank)技术对目录中登录的网站进行了排序,可以让一般的检索更具高效率。

示例:查找一下介绍搜索引擎方面的中文网站

搜索:先进入中文简体分类目录,再进入计算机目录,再进入互联网络子目录,再进入搜寻子目录。我们看到在“World > Chinese Simplified > 计算机 > 互联网络 > 搜寻下,还有两个子目录分类目录 (33) 搜索引擎 (10)”,以及6个相关网站。显然,这些都是我们所需要的信息。

除了用鼠标层层点入,也可以在目录中检索。比如,在上例的互联网络目录下,选中只在互联网络中搜索选项,在搜索栏内填入搜索引擎进行搜索。
结果:
参考资料:http://hackerzc.bokee.com/3006636.html

14.注意:下文中[]符号是为了突出关键词,在实际搜索中是不包含的。

15.在单词前加~符号可以搜索同义词,比如你想搜索[house],同时也想找[home],你就可以搜索[~house]

16.Google可以指定数字范围搜索。搜索[2001..2005]相当于搜索含有20012002直到2005的任意一个数的网页

17.搜索[define:css]相当于搜索css的定义,这招对想学习知识的人很有效;也可以用[what is css]搜索;对中文来说,也可以用[什么是css]之类的。

18.通过[link:]语法,可以寻找含有某个链接的网页,比如[link:blog.outer-court.com]将找到包括指向 blog.outer-court.com超级链接的网页(最新的Google Blog Search也支持这个语法),但是Google并不会给出所有的包含此链接的网页,因为它要保证pagerank算法不被反向工程。

19.Google 中输入一组关键词时,默认是搜索,就是搜索包含有所有关键词的网页。如果要搜索,可以使用大写的[OR] [|],使用时要与关键词之间留有空格。

20.如果你想把搜索结果限制在大学的网站之中,可以使用[site:.edu]关键词,比如[c-tutorial site:.edu],这样可以只搜索以edu结尾的网站。你也可以使用Google Scholar来达到这个目的。

21.在搜索中包含忽略的单词并没有什么大碍,不过会使搜索速度有些下降,这就是Google将它们剔除的原因。举一个例子,你想要搜索的是“how a toaster works”(烤箱如何工作),Google会移除“how”和“a”两个词,并自行按新的更短的关键词“toaster works”进行搜索。

如果你想要让这些一般的词包含在你的搜索要求内,你可以通过让Google必须在搜索中包含这些特定的词,使它不去排除“忽略的单词”。想要做到这点,你可以在你确实需要的词之前加上一个“+”符号。例如,要在搜索要求中包含“how”,你应该输入“+how”。请确保在+符号之前有一个空格符,而不是在它之后。

22.搜索近似的词:幸运的是,Google能够让你搜索近似的词——叫做同义词——通过使用“~”符号。只要在想要搜索的词之前加上“~”符号,Google就会搜索所有包括这个词以及合适的近义词的页面。例如,要搜索类似“elderly”的词,输入“~elderly”,所得到的页面就会不仅是包括“elderly”这个词,还会有包括“senior”、“older”、“aged”等等词的页面。

在此还有个额外的技巧:如果要只是列出近义词的页面,而不需要给出许多原先输入的那个词的页面,可以用“-”符号来连接“~”操作,例如“~keyword -keyword”。这样就能在近义词所得的结果中排除原先输入的词。在先前的例子中,要得到仅有“elderly”近义词的搜索结果,就输入“~elderly -elderly”即可。

23.使用相关操作算符只是众多你可用来调整Google搜索结果的方法之一。所有的这些输入的操作算符都是以相同的方式工作的,将这些算符作为你搜索请求的一部分输入,再将变量紧接在这些输入的操作算符之后的冒号之后(而不是空格),就像这样:“‘操作算符’:‘变量’”

有哪些搜索的操作算符是你可以利用的呢?以下是一个简短的清单:

算符

用途

用法

allinanchor:

限制搜索的词语是网页中链接内包含的关键词(可使用多个关键词)

allinanchor:keyword1 keyword2

allintext:

限制搜索的词语是网页内文包含的关键词(可使用多个关键词)

allintext:keyword1 keyword2

allintitle:

限制搜索的词语是网页标题中包含的关键词(可使用多个关键词)

allintitle:keyword1 keyword2

allinurl:

限制搜索的词语是网页网址中包含的关键词(可使用多个关键词)

inurl:keyword1 keyword2

filetype:

限制所搜索的文件一个特定的格式

filetype:extension

inanchor:

限制搜索的词语是网页中链接内包含的关键词

inanchor:keyword

intext:

限制搜索的词语是网页内文包含的关键词

intext:keyword

intitle:

限制搜索的词语是网页标题中包含的关键词

intitle:keyword

inurl:

限制搜索的网页的地址

inurl:keyword

site:

限制所进行的搜索在指定的域名或网站内

site:domain

24.搜索Google Directory

Google在它的搜索数据库中将成千上万的网页索引化——这就能使得不会产生压倒性数量的搜索结果。量确实已经够了,但有时你也许会更愿意得到一些高质量的结果。

  由于质量较数量更为重要,就可以绕过主要的Google搜索引擎而使用Google Directory来代替。Google Directory是一个网页清单相对较小的数据库,它们都是通过一个人工编辑团队手动精心挑选的。Google Directory是有被注释和组织到相关的话题类目下的。你可以通过类目来浏览网页目录,或是搜索指定的项目。

Google Directory是一个可用来搜索大量Google网页索引实用选择。Google Directory的结果比起你在更大的搜索索引范围中的搜索结果更为集中且高质,也能够帮助你在任何给定的类目下更好地认识什么是可用的信息。另外,如果你喜欢,你也可以利用浏览类目来替代搜索。

要进入Google Directory,点击Google主页上的更多链接,在接下来的页面中选择类别。当然,你也可以直接进入GoogleDirectory,只要在浏览器中输入directory.google.com即可。
  评论这张
 
阅读(920)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017