您的位置:Internet经济信息资源的检索与利用 > 课程内容 > 第一章 信息查询与信息资源

最新公告

第一章 信息查询与信息资源

1信息查询与信息资源
1.1信息查询
所谓信息查询,有时也被称为信息获取、信息检索等。它们的意思相差无几,都表示用户利用现代信息查询系统来获取所需信息内容的过程
这种信息查询系统通常有两类
搜索引擎
各种信息资源站点

1.1.1信息查询的必要性
 Google已经成为一个动词
2006年6月15日,著名的牛津英语大辞典(The Oxford English Dictionary,OED)就已经把Google收录成一个动词

Google是谁?
Google是一家软件公司的名称,这家公司在1998年才成立,发展至今已经成为能和微软等软件公司竞争的大型公司
它就是一家专门从事Internet信息查询服务的搜索引擎公司
国外的还有雅虎等搜索引擎,甚至微软后来也开始从事搜索引擎的开发和运营
中国国内的也有很多,比较著名的有百度和搜狗等
敢于向微软叫板的公司
在搜索引擎、应用程序、移动开发、甚至操作系统等多个领域中发起挑战

疯狂的招聘
Google于2004年9月底,3块15米长的米色广告牌上,简简单单刷着“(在‘e’的数列中所能找到的第一个十位数质数).com”
好奇分子忍不住用Google搜索起答案来,压根儿不晓得这就是Google出的“硬骨头”考题。不少人后来在规定时间内,登录上了那个目标网站。然而,那不是梦寐以求的终点站, Google恶作剧似的,为“高手”们在半山腰设了个休息的小凉亭
在那个目标网站里,贴出了一道更令人头疼的数学问题,答出这个问题,能得到进入下一个网页的密码
跑完数学“马拉松”,7500个“幸存者”走入Google实验室网页,成功投出简历。最后Google只要了50个人

Google近年推出的新服务
Google地图搜索
Google浏览器FireFox
Google图像处理软件Picasa
Google三维图像处理软件SketchUp
Google网络办公处理软件Writely
Google个性化搜索引擎功能
Google移动平台操作系统Android
Google推出智能手机Nexus One

这些说明了什么?
搜索引擎厂家已经成为现代Internet企业中举足轻重的力量
造成这种现象的一个根本原因就是现代社会已经越来越多的需要利用搜索引擎等信息查询服务来完成各种日常工作和生活等各个方面活动

对于个人,信息查询又有什么用呢
2006年曾经有一本畅销书,名称叫《搜商:人类的第三种能力》
搜商(Search Quotient,SQ)是一种与智商、情商并列的人类智力因素,也就是人类通过某种手段获取新知识的能力,其本质就是查询信息和搜索信息的能力

注意到软件的变化吗?
搜索功能的加强和普及
移动平台
Vista
内置MSN
Office
电子邮件搜索
Gmail
搜索栏广告

什么是“做功课”?
旅游出行前
比如旅游出行前,需要对旅游目的地做必要的了解,防止一些完全可以避免的事情出现,常见的方法就是查询Internet上的搜索引擎
如果事先借助搜索引擎查查各种旅游攻略、注意事项和别人旅游回来后发表的各种心得,完全可以避免这种事情

在生活和工作
打印机出现的问题
老是在液晶屏上显示一个“Printer Mispick”的提示,一时没想起来,找了半天说明手册
其实直接在百度上输入“Printer Mispick”,直接就解决了问题

与经济有关的领域
利用搜索引擎进行广告推广已经成为一种常见的市场营销策略,用户只需在搜索引擎中输入一些查询词,搜索引擎就会把相应的广告有效的推送给用户浏览

与经济有关的领域
各种电子商务网络购物站点的关键功能就在信息查询,这也是影响用户使用感受的一个最为明显的因素
如果这种系统不能很好的帮助用户找到自己所需的商品,恐怕用户就不愿意使用它
如淘宝在自己主页的显著位置上放置了一个搜索框,同时也在各个商品的浏览页面中集成了各种方便用户的查询功能,甚至还要求用户对此提出意见

人生的几件大事——教育
高中毕业选择高校和专业,仅仅查阅那个小小的高校专业介绍显然不够
看看大家对这些高校和专业的关注程度和相关网络信息,才可以更好的帮助我们做出选择

人生的几件大事——教育
如果我们知道专门提供此类高校专业信息的站点,则可以获取更为准确的参考信息
如教育部学位与研究生教育发展中心主办的“中国学位与研究生教育信息网”就公布有年度中国大学的学科排名信息

人生的几件大事——找工作
就业找工作,那不就是就业信息查询吗
相关就业招聘服务已经成为现代网络站点常见的一种服务功能

人生的几件大事——婚恋
连找对象这种事情也都成为现代Internet信息查询服务产业中一个很大的市场,如各种婚恋介绍站点等

一种感性理解的总结
更不要说买房买车之类的事情
到此,我们可以对信息查询的必要性有一个感性的认识
在现代社会中,信息查询已经成为一种重要的用户行为,和我们日常工作生活密切相关
所以我们有必要学习如何更好的使用各种诸如搜索引擎在内的信息查询系统,同时也应该了解一些常见的信息资源站点,知道从哪些站点可以更为方便的获取哪些信息,从而为我们提供更多的便利

对必要性的深入理解
如果我们把Internet信息系统抽象成一个巨大的人类知识体,那么我们就会发现信息查询活动是一种人类认识知识和获取知识的基本活动过程
在这种场景中,这种巨大的知识体既可以包括Internet网络,甚至也可以将图书、报纸等各种传统媒体资源包含进来
因此,用户必须掌握与这种知识体交互的方法,即信息查询方法,才能更好的使用它们
我们是如何使用这些知识的呢?
这包括两个重要条件
要存在这样的一个知识体
不管是图书和报纸等传统纸质文献,还是Internet存储的电子资源,它们都是一种知识体的具体存在形式,因此知识体是客观存在的
用户能够表达需要什么样的知识
相对于第一个条件而言,似乎这个条件更为简单
然而对于用户来说,这才是需要着力掌握的技能之一
这其实也就是一种信息查询的能力,越能有效的掌握获取和查询知识的能力,用户就越有可能在今天海量的信息世界中找到自己所需的内容

目前的困境
今天Internet上的信息量已经呈现出一种爆炸性增长的态势
据报道,2008年7月,Google搜索引擎能够查询到的Internet网页就高达1万亿,而且每天增加的网页数量也在十亿数量级上
面对着这个海量的信息资源,人们却难以有效的获取所需知识
主要原因在于这种信息资源的增长速度远远超出了人们能够处理它们的能力
约翰•奈斯比特(John Naisbitt)在《大趋势》一书中是这样形容人们目前所处的困境:“信息是丰富的,而我们正在渴求知识(Rich Data But Poor Information)”
当然,通过改进搜索引擎等信息查询系统的功能可以解决这一问题
然而我们也注意到,在更多的情况下,用户查询技能方面的改进空间更大一些,甚至可以说,如果用户不能很好的掌握信息查询方法,再好的信息查询系统也难以发挥它们的威力

搜狗实验室在2007年曾经发表过一篇研究论文 。文中指出,在对搜狗搜索引擎一个月内近5000万条查询日志进行分析处理后,发现以下事实:
长度不超过3个词的查询占了总查询数的93.15%,平均长度为1.85个词
这说明用户输入的查询通常都比较短。而我们都能想象出,查询词语越短就越难以有效的表达用户的准确信息需求
更为吃惊的现象是,只有约0.73%的查询含有用于高级查询功能的符号,即目前大多数中文检索用户只是通过输入很少的几个关键词就开始查询
这些包括布尔查询在内的高级查询往往都能更为有效的表达用户的信息需求。
深入理解的总结
这些都充分说明我们需要掌握现代Internet信息资源的查询方法,通过这种方式,提高我们使用Internet信息资源的能力,这些宝贵的信息资源才能为我们提供更好的帮助

1.1.2信息查询的基本过程
信息查询的基本过程
主要分为两个步骤
用户发出对信息的查询请求
信息查询系统响应用户,返回请求的查询结果

用户和知识体并不能直接交流,中间存在两个主要的转换环节
用户和知识体的转换环节之一
用户需要将自己的信息需求转换为信息查询,这既需要用户掌握一些信息查询的技能,同时也需要查询系统提供一个良好的界面以方便用户表达信息需求和使用信息查询功能
我们由此也能看出很多搜索引擎的界面差别正是体现了它们对用户查询感受的不同理解和考虑
用户和知识体的转换环节之二
信息查询系统要能够在知识体中找到用户所需的信息内容,这就需要信息查询系统对这些知识体的信息内容做必要的处理,以保证在较短时间内找到最为相关的结果
对于如此巨大的Internet网络来说,这并非一件很简单的事情
所以,大多数搜索引擎都是由一些技术先进的大公司来运作和维护

浏览网页也是信息查询行为吗?
比如用户打开网易主页,看到了主页上的体育新闻,很快点击该超链,在弹出的新页面中看到了更多的体育新闻。由于该用户是个篮球迷,于是在这个网页中又连续点击看到很多关于NBA联赛的消息
这种操作看起来并不像是信息查询,其实它具有信息查询活动的全部特点,即用户有比较明显的信息需求,同时也在不停的获取满足这种需求的各类信息资源
具体来看,用户的点击都能反映出用户的一种个性化的信息需求
不过和一般搜索引擎查询不一样的地方在于这种查询过程没有显式的查询词语输入,而且用户的信息需求是逐渐在浏览操作中被启发而形成的
但它确实是一种信息查询过程,我们通常称之为基于超链访问行为的信息查询

1.1.3信息查询效果的衡量指标
信息查询结果的好坏是一个非常主观的判断结果。不同的人,甚至同一个人在不同的时间,都可能会对同一个查询结果做出完全不一样的判断
因此,为了能够清楚和客观的测度信息查询系统的查询效果,我们经常使用两个经典的指标,分别是查全率和查准率
查全率,英文名称为“Recall”,因此也常被唤作“召回率”
指在所有满足用户查询需求的相关记录中,查询系统实际返回的相关记录比重
查准率,英文名称为“Precision”,它是指在查询出来的所有记录结果中,真正相关记录的返回比重
两者的关系
两个指标都是越高越好
但是经验表明,这两个指标往往呈现负相关的变化关系
原因主要在于如果要提高查全率,就必然要求增加查询结果的数量,因此会不可避免的导致无关结果的增加。反之,如果要想提高查准率,就应尽可能少的获取记录结果,而这在一定程度上又会降低查全率
但是这种现象却无法得到理论证明,甚至有学者还提出两者并不存在什么明显的相关关系
当然,在实践中这种现象确实存在
不过,随着技术的进步,人们研制的新型搜索引擎等信息查询系统确实可以在一定程度上同时提高系统的查全率和查准率

1.1.4信息查询系统的发展历史
搜索引擎并非一种最早和唯一的信息查询系统
事实上,搜索引擎是随着Internet网络的产生才逐渐发展起来
在Internet网络出现之前,人们如何进行信息查询呢?
早期的形式
如果把时间拉回二十世纪初,那时还没有计算机,所有的信息查询都是基于纸质文献和胶片等传统信息载体来进行
这些都促进了一些学科的诞生,如图书馆学和档案学等
它们就是要研究如何更为有效和快速的管理和获取这些信息资源

在二十世纪中期,随着计算机的出现,特别是早期计算机网络的出现,人们就可以尝试将传统的信息资源电子化,并建立一些基于计算机的信息查询系统
这些系统在很大程度上借鉴了传统图书馆学和档案学的一些方法和思路,直到今天我们还能看到很多,甚至一些名词仍然保留了下来
如“索引”,今天的索引主要是指用于提高计算机数据库查询速度的一种特殊数据结构
但是这个词语最早在图书馆中是指对图书的标题和作者等信息按照一定次序分条排列并以此提供图书快速查询线索的一种检索工具

现代信息查询系统的出现
从二十世纪50年代开始,基于计算机系统的现代信息查询系统开始出现
据资料表明,1954年美国海军武器实验站图书馆建立了世界上第一个基于计算机的信息查询系统

主要的发展阶段
从此以后,此类系统开始快速发展起来
一般认为,迄今已经经历了四个主要发展阶段
脱机批处理查询阶段
联机信息查询阶段
光盘信息查询阶段
Internet信息查询阶段

脱机批处理查询阶段
称呼来源于两个关键词
“脱机”:即用户不直接使用计算机,用户只能将自己的查询需求提交给这些专职操作员,由他们来专门进行查询
“批处理”:这些操作员不可能接收到一个查询请求就处理一个,操作员会在收到很多用户提交的查询请求后,对其进行分类合并,甚至还要对用户的查询进行必要的修改,得到速度最快、效果最好的查询指令,最后集中提交给计算机一并处理。处理完后,操作员将这些查询结果再反馈给用户
世界上第一个该种类型的系统是在二十世纪50年代末由美国IBM公司研制的“定题情报检索(Selective Dissemination of Information,SDI)”系统,该系统首次尝试利用计算机编制索引以提高信息查询速度

Information为什么被翻译成“情报”
当然也可以翻译成信息
但是在那个年代,在外人看来如此神秘的计算机上处理的信息,往往都是一些重要的数据资源,不论对于企业决策还是科学研究,这些信息处理都代表着一种情报获取和分析的能力
因此翻译成情报非常合理。到了今天,信息技术已经普及,信息获取和处理能力不再是企业政府的专利,再说情报似乎有些过头,但是这种叫法却流传了下来

联机信息查询阶段
到了二十世纪60年代,计算机网络开始出现
这并非今天的Internet网络,而是一些早期的计算机网络
基于这些网络,人们开始尝试实现联机的网络信息查询系统
据资料表明,1961年,美国系统发展公司首次在Prolosynthex上实现了全文百科全书联机查询系统
到了1965年,该公司在全美境内进行联网试验并取得成功,最终形成了著名的ORBIT联机情报查询系统

和以前的脱机批处理系统相比,这种系统的用户不必一定是直接操作计算机的专职操作员,也可以或者更可能是一些通过网络连接到计算机的其他终端用户
这种联机信息查询系统的价值更大,使用范围更广,影响也更深远
网络技术还能保证数据的及时更新和实时获取
使用这些系统的用户开始变多,任何用户只要能够通过网络连接到该计算机系统上,就可以使用这些系统。这样用户就可以通过自由的不断修改查询条件,获取自己满意的查询结果

到了二十世纪70年代,随着网络技术的高速发展,联机信息查询系统得到了迅速发展
一大批著名的大型联机信息查询系统纷纷出现,如DIALOG、BRS、STN、ESA-IRS等
其中DIALOG系统是最大的国际联机信息查询系统,现为ProQuest在线信息服务提供商的成员,拥有各个行业600多个数据库资源,存储的记录总数高达3亿多,占世界所有信息查询系统数据库文献总量的一半以上
到了二十世纪80年代,我国也开始连接到这些国际联机信息查询系统上

光盘信息查询阶段
虽然联机信息查询系统非常方便,但是由于使用的是专用的计算机网络,因此费用高昂
到了二十世纪80年代初,Internet网络还没有普及,一种新型的数据载体改变了这种状况,那就是光盘
最早的光盘是由荷兰的菲利普公司于1972年研制成功的激光唱盘,但直到1983年,日本才首次推出可以用于计算机存储的数据光盘
这种存储介质的最大特点就是容量大,而且数据保持持久,更重要的是光盘造价低廉。只要在计算机上安装光驱或者光盘塔之类的设备即可读取光盘上的数据信息
当然,这种方式也有它的缺点,那就是数据无法及时更新,除非购买新的光盘

1985年,美国国会图书馆首次使用光盘制作了机读目录
直到今天,虽然Internet网络已经普及,但是数据光盘仍是一种常见的数据存储形式
因为在很多时候,直接访问光盘来获取信息还是一种比较简单、稳妥和经济的选择方案
所以,很多数据库既提供Internet网络版本,也提供相应的数据光盘版本

Internet信息查询阶段
到了二十世纪90年代以后,随着Internet网络的发展,一切都改变了
脱机批处理早已一去不复返,联机信息查询系统也逐渐在Internet网络上开展服务
即便是使用光盘数据,就像很多图书馆一样,它可以在购买过光盘后仍然通过Internet网络给用户提供各种信息查询服务
本书主要讲述这些内容
Internet信息查询阶段

1.2信息资源
简单的理解
信息资源就是经过加工整理后形成的有序并且有用的信息集合体
也就是指我们通常希望通过查询活动得到的各类信息内容和数据资源

1.2.1一般信息资源的常见类型
按照信息的表达形式和所在载体的不同,可以把信息资源分为如下三类
文献信息资源
口语信息资源
实物信息资源

文献信息资源
广义的文献信息资源包括以诸如纸张、电子存储器和胶片等载体存储的各种信息资源
我们平时所说的信息资源,包括本书所讨论的信息资源主要是指文献信息资源

文献信息资源又可以分为如下三种:
一次文献信息资源:它主要是指一些具有原创性的文献信息,如各种论文、专著和新闻等。此类信息价值较大,通常也是人们最终所希望获取的信息内容
二次文献信息资源:它主要是指对大量一次文献进行收集整理后形成的信息资源,如摘要和目录索引等,这些文献信息资源的主要目的是提供人们一种查询一次文献的途径和方法
三次文献信息资源:它主要是指在对二次文献进行整理加工的基础上,按照某一个领域和学科方向编撰的带有综合性的文献信息,如百科全书和词典等

口语信息资源
此类信息资源往往表现成经口头相传得以保存和传播的各种语言信息
在人类的早期,大多数体现知识的信息都是以语言口授的方式得以保存
但是口语信息资源并没有随着时代的发展而逐渐变得不再重要,相反,在现代社会,口语信息依然是一种极为重要的信息资源,甚至有学者把这种口语信息资源称之为“零次信息资源”
很多不经正式渠道流通的信息,各种存储在人类大脑中的知识,往往都只是通过口语的形式传播,也通常只保存在人们的脑海中
一些诸如百度知道之类的网络百科全书也正是利用这种口语信息资源来提供信息查询服务

实物信息资源
严格意义上讲,实物并非信息资源,但是在信息资源获取活动中,人们往往通过获取实物来间接得到信息
如产品展览会上展出的各类产品,通过了解这些产品,人们可以得到很多关于市场和竞争企业的相关信息,同时也能够了解该产品的一些具体细节信息
对于经济类信息资源而言,实物信息资源及其相应的数据信息都是一些重要的信息资源

1.2.2学术信息资源的常见类型
按照信息资源的用途,也可以把信息资源分为学术信息资源和诸如娱乐信息资源等非学术信息资源
学术信息资源在人们所要获取的各种信息资源中的比重非常大,是一种最为常见的信息资源种类
它主要是指在信息内容上专门介绍各种学科知识并具有一定的学术价值,通常的用户主要是学者和科研人员等

学术信息资源的常见类型
按照信息加工的深度,一般可以把学术信息资源分为如下三种主要类型:
全文信息资源
Full-text Information Resource
书目信息资源
Bibliographic Information Resource
数值信息资源
Numeric Information Resource

全文信息资源
它是用户希望获取的最终的信息内容,通常都是一次文献信息内容
随着计算机技术的发展,今天的大多数学术信息资源都可以通过Internet来获取相应的电子全文版本

书目信息资源
书目是相对于全文而言,此类学术信息资源通常都不是人们希望获取的最终信息内容,只是查询的依据和途径
借助这些书目型信息资源,人们可以更为方便的找到所需的全文信息资源
即便是没有全文信息,此类信息源依然很重要
人们可以据此来了解某一学科的发展趋势和某一机构或者个人的科研能力
它也是很多科研评价的重要参考依据之一

数值信息资源
它主要提供各种原始数据资料,以便于学者进行科研工作时使用
如经济统计数据、人口地理数据和产品参数数据等
通常也被称为事实信息资源

Copyright © 2010 南京财经大学信息工程学院信息管理系李树青. All Rights Reserved.

技术支持:www.njmars.net
李树青