您的位置:Internet经济信息资源的检索与利用 > 课程内容 > 第二章 搜索引擎的查询方法

最新公告

第二章 搜索引擎的查询方法

搜索引擎的查询方法
基于关键词的基本查询方法
基于Web目录的分类查询方法

2.1 基于关键词的基本查询方法
按照查询方式的不同,现代搜索引擎所提供的信息查询方法可以分为四种,分别为
布尔查询
词组查询
模糊查询
字段查询

2.1.1布尔查询
布尔查询是一种最为常见的查询方式。说的专业一些,布尔查询就是一种利用诸如“AND”、“OR”和“NOT”等布尔操作符表达的查询
布尔查询就是一般用户自觉不自觉都在使用的方式,通过该种查询我们可以告诉搜索引擎我们希望找到什么,不希望找到什么等等

2.1.1.1 AND查询
注意之一
为了清楚表明用户的查询需求,采用多个查询关键词十分必要
选择关键词需要技巧和经验,有时可能需要多次尝试才能找到最为合适的关键词
比如对于查询“搜索引擎 首页”的练习而言,如果采用“搜索引擎 站点”来查询,效果就不理想。但是这种现象可能会因时因地而变化

注意之二
大多数搜索引擎中,“AND”是通过空格来表示的
也许读者可以使用诸如“搜索引擎介绍”来查询,发现实际效果区别不大
因为现代中文搜索引擎通常都具有自动分词的能力,也就是说,将较长的词组自动拆分为多个关键词并且自动扩展为“AND”布尔查询

注意之三
由于搜索引擎经常更新网页的索引信息,而且不同的搜索引擎都会采用不同的相关度排序算法,所以实际的查询结果可能会因时因地而变化,这种现象很正常

注意之四
“AND”查询其实是一种缩小查询范围的查询方法,说的专业一些,就是该方法可以提高查准率
当然在减少返回结果的同时,一般也会不可避免的丢失一些其实有价值的结果,因此会减少查全率

2.1.1.2 OR查询
注意之一
这种方法显然增加了无关网页被命中的概率,特别是在选择的关键词不甚合理时尤为如此
和“AND”查询相比,使用“OR”可以说是一种增加查全率但会降低查准率的方法

注意之二
增加关键词需要用户了解相关背景知识,否则如何知道“银杏果”也可以称之为“白果”呢?
特别对于较为专业的知识而言,只有熟悉该领域知识的用户才能更容易找到更多的相关查询词

练习
既要找到中文搜索引擎的介绍网页,也要找到英文搜索引擎的介绍网页

说明
对于“搜索引擎 OR search engine 介绍”的正确理解是查询“含有搜索引擎或者search engine,并一定含有介绍”的网页
值得注意的是,不同的搜索引擎可能会有一些差别和注意事项
如Google就要求“OR”大写,并且前后空格分隔,还可以“|” 来代替“OR”

2.1.1.3 NOT查询
由于中文不象英文,本身没有天然的分隔符,对于一些较为模棱两可的词语,有时连我们自己都难以正确解析和分词,除非了解用户的查询背景,而对于搜索引擎而言,这显然更不可能
中文分词技术难度较大,如“发展中国家兔的饲养”就可以理解为两种形式:一是“发展 中国 家兔 的饲养”,另一个是“发展中国家 兔 的 饲养”
更为奇妙的是在百度的商业广告中那句“我知道你不知道我知道你不知道我知道你不知道”

如何解决
查询“李四”的信息但是一定不要“李四光”的信息,正确的查询关键词为“李四 —李四光”

注意两个问题:
那条横线前面有个空格,后面没有空格,横线自身为减号,表示“NOT(不)”的意思
横线为英文半角的减号,作为不表示语义概念的布尔操作符,所有的这些布尔操作符号都应该是英文半角符号

一种新的查询思路
有时候,我们可能并不十分清楚被查询的内容,很难构造准确的查询关键词,那么我们就可以首先利用一般的关键词来查询,然后对其结果不断的利用“NOT”查询去排除无用信息,间接的找到所需的内容

NOT的副作用
毕竟相对于全部网页而言,满足关键词的网页数量一般总是少数,因此,直接使用或者过多的使用“NOT”查询都是不足取的
如在Google中使用“—a”来查询,由于命中的结果网页将会很大,所以干脆返回一个无法找到的提示信息

2.1.2词组查询
问题之一
第一条结果内容为“world war i”,似乎全是小写,这个问题不大,因为搜索引擎通常都会将全部查询词语转换为小写在进行匹配
而第三条结果就明显不对了,它是介绍第二次世界大战(World War II)的网页

问题之一
早期的Google搜索引擎还有一个提示“I太常用,没有被列入搜索范围”
搜索引擎其实并没有查询“World War I”,而只是将这个查询理解为查询含有“World”和“War”的网页,显然,这些结果都满足要求

为什么忽略
“I”字符具有多种语义,既可以看成是罗马数字“1”,也可以看成英文中“我”的意思,事实上,“我”的含义更为常见和普遍,此时可以想象,作为如此常见的一个词语,哪个网页不会含有“I”这个词语呢?既然是几乎所有的网页都含有这个词语,所以这个词语就不应该作为查询词语

停用词
我们把这种没有区分度的词语称之为“停用词(Stop Term)”
不过,如果非要在一般的查询中查询这些停用词,也是可以的
正确的做法是在停用词前使用强制查询操作符“+”(仍然是英文半角的加号字符
如查询“World War I”同时不允许忽略停用词“I”,正确的语法是“world war +I”

补充说明
近几年来,随着搜索引擎技术的不断进步,现代搜索引擎更多的是采取不再忽略停用词,或者是把忽略停用词和不忽略停用词的结果合并处理
当然,并非所有的停用词都能这样处理,如大部分诸如问号、句号、逗号等常用英文符号,即便是加上强制查询操作符,也不能获得结果

问题之二
为什么搜索引擎把“World War”理解为“World”和“War”?
两者并非总是一致,事实上,在随后的几页结果中我们能够看到更为奇怪的结果

原因
造成这种现象的主要原因在于搜索引擎一般默认认为空格为布尔查询的“AND”操作,所以它不认为这是真正的词语分隔符
如何解决
正确的查询方法是使用词组查询,此时的关键词为“”World War I“”,注意外面的双引号是为了在书中给出关键词内容,里面的双引号才是用户需要在查询关键词中增加的内容
这个输入的双引号将用户查询关键词括了起来,从而表明希望搜索引擎返回完整的匹配内容,既不去除停用词,也不要随意拆分查询词语,更不要调换词语的位置
双引号应该是英文半角字符

另外一种语法
在Google中也可以使用诸如“world-war-I”的查询关键词来获得同样的效果,此时无需前后的双引号,而使用“-”连字符连接就可以表达一个整体查询词

补充说明
随着技术的发展,特别是对用户使用满意度的不断适应,现代搜索引擎通常不再刻意的强调自动去除停用词等操作
在很多情况下,有时我们不使用带双引号的查询关键词似乎也能得到正确的结果
但是这并不总是有效,有时就需要我们采用正确的词组查询方式来获取准确的结果
一种有效的查询方法
词组查询有着非常广的应用,有时甚至可以实现一些其他方法难以实现的查询效果,如查询和下载电子书或者论文等电子文档
常见的方式就是使用诸如文档名称,或者再加上诸如“全文”和“下载”之类关键词来进一步限定结果内容
然而,往往实际效果都不理想

补充说明
人们有时也把词组查询叫做“句子查询”,这更能体现这个含义
任何方法都有两面性,虽然词组查询可以非常准确的找到所需的内容,但是也可能会一无所获,毕竟不是所有的书籍论文都有网络电子版本,更何况使用该方法还需我们知道一些必要的书籍内容原文,这也是该方法的局限性

2.1.3模糊查询
从字面理解,模糊查询应该是指一种在不是非常清楚被查询内容时采用的查询方法
其实,这种理解是错误的,如果用户不清楚被查询内容,他就难以构造查询条件
在绝大多数情况下,使用模糊查询的主要目的在于有意识的获取更为灵活的返回结果,此时用户需要非常了解要查询的内容

另外一种称呼
很多人也把模糊查询称之为“截词查询”,虽然名称较为别扭,似乎更准确一些

如何查询字词
百度于2010年推出“百度拆字查询”服务
如在百度搜索引擎中查询关键词为“左边一个巾右边一个失”,将会自动获取百度词典中的拆字查询结果

其他方法
我们还可以通过查询网络字典的方式,来间接得到查询“帙”的读音,甚至可以通过查询“如何知道字的读音”之类的方法,通过查询了解字读音的方法来操作

模糊查询的局限性
它只能在词语级别上进行操作,不能对词语内部的若干字符进行模糊查询
如查询含有所有以“mix”开头并且以“e”结尾单词的网页,查询关键词为“mix*e”,结果只是以“mix”和“e”为两个独立词语进行了模糊查询

补充
Google还提供了一个带有词语语义扩展功能的模糊查询
如查询“~money”可以找到和“money(钱)”相关的各类同义词并进行查询

2.1.4字段查询
更为强大专业的查询方法

2.1.4.1 site字段查询
问题
查询和讯网站提供的某种股票的相关信息
在和讯中查询并不方便
直接使用“和讯  国阳新能”效果不理想

说明
所谓字段,其实就是一个被查询内容的出处,如此例中的“site”字段就表示网页所在的站点,此处跟随的网站后缀就是和讯站点的主域名
那么国阳新能是什么字段?以前使用的那些普通查询又是什么字段?
任何查询都是字段查询,那就是默认对网页正文内容这个字段进行查询
如查询“搜索引擎”的意思是指在网页正文内容中查询是否有“搜索引擎”这个词语

字段修饰符可以放在其他查询关键词的前面,也可以放在后面,所以“国阳新能 site:hexun.com”和“site:hexun.com 国阳新能”效果一样,其他字段查询皆如此

问题
估算南京财经大学的网页数量
结果分析
这个结果数量显然偏少,原因可能在于搜索引擎爬虫没有遍历学校的全部网页
因此,该方法只能是一种估算,“南京财经大学”学校站点的全部网页估算量估计在十万数量级左右
虽然绝对值不准,但是通过与其他网站进行对比,却可以比较准确的判断规模的相对大小
再如“site:edu.cn”可以估算中国教育科研网的网页数量规模,“site:cn”可以估算中国域名网站的网页数量等等

其他应用
利用此方法还能起到提高查准率的效果
如想查询关于ERP课件的相关内容,就可以通过限定在教育网网站中查找的方式来提高效果,毕竟教育网网站更易于提供相关资源的浏览和下载,此时的查询关键词为“ERP课件 site:edu.cn”

对于字段查询而言,并非所有的搜索引擎都能够提供,而且不同搜索引擎的能力也各不一样

2.1.4.2 filetype字段查询
利用搜索引擎可以查询到Word文件吗?
利用搜索引擎可以查询到Flash动画吗?
利用搜索引擎可以查询到金山OFFICE的WPS格式文件吗?

filetype字段查询
早期的搜索引擎一般只能检索普通的文本网页信息,随着各种其他文件格式的流行,现代搜索引擎逐渐增加了对常见文件格式的支持功能
Google等搜索引擎就可以查询到包括Word格式在内的近十多种类型文件
但这种功能需要搜索引擎能够正确解析文件格式,而且可以想象,只有比较流行的常见文件格式才会受到支持
目前象Google等搜索引擎并不支持WPS等文件格式

常见文件格式及其扩展名
PDF文件
Adobe公司推出的PDF格式是一种Internet电子出版文件的标准格式,不像Word等文件,该种文件可以内嵌字体和图片,所以可以保证在任何能够打开的机器上都呈现出相同的外观,而且由于是电子化出版标准
该类型的文件通常质量较高,更为重要的是它们的数量也很多
要想获取高质量的网络文件,通过限定文件格式为PDF是一种较为有效和常见的方法

2.1.4.3 link字段查询
字段link可以查询指定网页的所有链入网页
主要作用就是评价网页和网站的质量和知名度

结果分析
由于搜索引擎所遍历获取的网页并不全面,同时也由于网页分析算法的局限性,可能最终获取的链入网页数量很少
如得到的毕马威国际会计师事务所主页链入网页只有2110篇
事实上,这只是一种估算
不过,利用不同查询词语获取的链入网页数量进行相对比较,可以在很大程度上区分出网页质量和知名度的高低

2.1.4.4 其他字段查询
利用高级查询
不同的搜索引擎对这些高级字段查询的支持能力各不一样,有些可能不支持,有些可能支持但是采用的语法规则和文中所述的并不一致
很多搜索引擎还会提供一种较为简单易用的“高级搜索”界面

Google中经济信息字段查询
对于经济类信息而言,搜索引擎往往还专门提供一些特殊的字段查询功能
商品价格
像素数
尺码

2.2基于Web目录的分类查询方法
这种方法的特点在于它提供了一个人工整理的网页目录结构,而且采用人工方式分门别类的收录网站的网址
由于是人工编撰,所以目录结构数量和收录网址数量都较少,不过这些被收录的网址往往质量较高,而且和目录结构的语义对应关系较为准确
例子
使用Google的网页目录查询关于经济学方面的团体组织

例子
使用Google英文版网页目录查询关于经济学方面的团体组织

说明
相对于中文Google而言,Google英文版网页目录所收录的内容更多,而且它还能在各级目录结构中放入匹配的网址结果
事实上,绝大部分情况下,由于很多搜索引擎所收录的中文网址较少,所以导致使用并不方便
补充
不同的搜索引擎往往在网页目录结构上具有很大的差异

2.3 查询策略与典型案例
2.3.1合理选择查询关键词
增加相关查询关键词
去除无关查询关键词
使用更为准确的查询关键词
利用查询中的发现来改进查询

2.3.1.1 增加相关查询关键词
查询关键词的选择至关重要
用户既要保证选择的关键词能够准确反映自己的查询需求,同时还要保证能够有效的查询出所需的内容

2.3.1.2 去除无关查询关键词
无关的查询关键词不仅会造成查询出过多的无用信息,而且甚至可能会导致无法找到有用的信息

2.3.1.3使用更为准确的查询关键词
准确的关键词选择可以让我们甚至一步到位的命中所需结果

2.3.1.4利用查询中发现来改进查询
在很多时候,我们之所以不能更好的得到满意的查询结果是因为我们不了解,甚至我们对该使用什么样的查询词都不很清楚
如果我们通过在查询中的发现,逐渐学习和了解与我们查询内容相关的知识,可以很好的帮助我们调整和改进查询词语,从而获取更为满意的结果

2.3.2综合使用各种查询方法
结合多种关键词查询方法
关键词查询与网页目录查询相结合

2.3.2.1 结合多种关键词查询方法
合理的选择和综合使用往往可以取得更有效的结果
多使用这些高级方法以增强查询的效果

2.3.2.2关键词查询与网页目录查询相结合
关键词查询和网页目录查询各有优势,前者可以提供一步到位的直接命中查询结果的能力,而后者则可以提供相对较为准确的查询结果
可以将两者结合以起到更好的查询效果

2.3.3间接获取方法
关键词查询与网页浏览相结合
利用URL变换方式获取更多相关文件

2.3.3.1关键词查询与网页浏览相结合
从用户行为角度来看,网页浏览行为其实也是一种信息查询活动,只不过此时用户是通过点击与自己信息需求相关的网页链接来实现对更多相关网页内容的查询
由于有相关网页内容的提示,所以这种网页浏览行为可以让用户在查询的同时,还可以了解更多的相关内容

2.3.3.2利用URL变换方式获取更多文件
如果能够在一个网站上找到一篇你想要的内容,那么可以想象它非常有可能还有更多你想要的内容,特别对于一些成系列的资料而言尤其如此

2.3.4其他方法
在使用一种搜索引擎始终难以取得效果的时候,可以尝试切换搜索引擎,或者使用搜索引擎的其他查询服务
建议对中文信息的查询还是使用诸如百度等国内著名搜索引擎,而英文信息则可以尝试使用诸如Google等国外著名搜索引擎
其实每个国家和地区往往都有自己当地最为优秀的搜索引擎,如果身处当地,可以试一试这些本地的搜索引擎
可以换个时间来操作,因为搜索引擎可能会周期性的更新网页索引,所以在不同的时间中往往找到的内容也并不一样

其他方法
读者还可以从一些网站举办的搜索引擎大赛来获得更多的学习机会
如赛迪网就经常举办互联网搜索大赛,而且已经举办过多届

Copyright © 2010 南京财经大学信息工程学院信息管理系李树青. All Rights Reserved.

技术支持:www.njmars.net
李树青