课外天地 李树青学习天地信息检索原理课件 → [推荐]第一部分课堂讲义——关于课程的说明


  共有23911人关注过本帖树形打印复制链接

主题:[推荐]第一部分课堂讲义——关于课程的说明

帅哥哟,离线,有人找我吗?
admin
  1楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1940 积分:26616 威望:0 精华:34 注册:2003/12/30 16:34:32
[推荐]第一部分课堂讲义——关于课程的说明  发帖心情 Post By:2008/2/26 21:43:13 [只看该作者]

PPT课件下载链接:

 下载信息  [文件大小:   下载次数: ]
图片点击可在新窗口打开查看点击浏览该文件:

I 关于课程的说明
1 如何学习本课
教:采用双语模式,内容给出完整的中英文对照;理论与实践结合,从Web搜索引擎的角度来谈现代信息检索的原理与实现
学:阅读文献;掌握如何研究和学习的方法;掌握信息检索课程的基本内容;检索活动的实践——Google;检索系统的开发——Lucene

2 课程的安排
按照大纲进度介绍课程内容
讲解检索练习
以Google公司为例,介绍现代信息检索的发展现状
课程内容

Chapter 1 Introduction to Information Retrieval
Chapter 2 Basic information retrieval
Chapter 3 Index
Chapter 4 Vector space model
Chapter 5 Evaluation in information retrieval
Chapter 6 Relevance feedback and query expansion
Chapter 7 Web search and search engine
Chapter 8 Advanced information retrieval
Chapter 9 Data mining in information retrieval

相关研究领域
图书情报学(Library & Info. Science)
数据库管理(Database Management)
人工智能(Artificial Intelligence)
自然语言处理(Natural Language Processing)
机器学习(Machine Learning)

图书情报学(Library and Information Science, LIS)
IR最初起源于LIS
LIS主要关注IR中的用户方(人机交互、用户界面、可视化)
LIS关注人类知识的高效分类
LIS关注文献的引用分析(citation analysis)和文献计量(bibliometrics)
近年来数字图书馆方面的工作使得LIS和IR日益融合

数据库管理系统(Database Management, DM)
DM主要面向关系表中的结构化数据而非自由文本
DM主要集中于高效解决形式化语言(如SQL)定义的查询
DM中不论是查询还是数据都具有明确的语义
近年来半结构化的XML数据的出现使DM和IR逐渐融合

人工智能(Artificial Intelligence, AI)
AI关注知识的表示、推理和智能行为
AI中知识的形式化表示
一阶谓词逻辑(First Order Predicate Logic)
贝叶斯网络(Bayesian Networks)
近年来Web本体及智能信息Agent方面研究使得IR和AI相互融合

自然语言理解(Natural Language Processing, NLP)
NLP关注自然语言文本的语法(syntactic) 、语义(semantic)及语用(pragmatic)分析
NLP可以分析短语结构和语义,使得IR可以在短语上、或者从语义上进行处理,而不是仅仅基于单个关键词
NLP和IR天生就是融合的
通过上下文词义消歧(word sense disambiguation)来确定一个词在某个特定上下文的语义
通过一些NLP方法来获得文档中的一个语言片断(information extraction)
通过NLP方法可以从文档集合中返回一些问题的答案(question answering)

机器学习(Machine Learning, ML)
ML关注通过对经验的学习来提高计算机系统的性能
从标注好的例子中学习相关概念,然后进行自动分类(有监督的学习,supervised learning)
将未标注的例子自动聚集到有意义的不同集合中(无监督的学习,unsupervised learning).
ML和IR融合的方面
文本分类(Text Categorization)
自动层次分类(如Yahoo目录)
自适应过滤或推荐(Adaptive filtering/recommending)
垃圾过滤(Spam filtering)
文本聚类(Text Clustering)
IR结果的自动聚类
层次型类别体系的自动构建(如Yahoo!目录)

3 阅读资源
3.1 Introduction to Information Retrieval
CSLI(The Center for the Study of Language and Information)
C.D. Manning, P. Raghavan, H.Schütze. Cambridge UP, 2007
Focuses on algorithms and mathematical foundations without neglecting practical issues in building search systems. Equal coverage of classical IR and newer topics like XML, machine learning techniques and web search engines.
Ref:http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

3.2 Modern Information Retrieval
R. Baeza-Yates(理查多·巴埃斯-耶茨), B.Ribeiro-Neto(里韦罗-内托). Addison-Wesley, 1999. Currently the most widely used and cited
Ref:http://www.ischool.berkeley.edu/~hearst/irbook

3.3 Information Retrieval
C. J. van Rijsbergen(莱斯贝尔亨). Butterworths, 1979. The classic. Almost 40 years old, but still worth reading.
Ref:http://www.dcs.gla.ac.uk/Keith/Preface.html

3.4 Information Retrieval: A Survey
Ed Greengrass. 2000. Good survey of classical IR, but little or no coverage of recent work (e.g., language models, PageRank, SVMs).
Ref:http://www.csee.umbc.edu/cadip/readings/IR.report.120600.book.pdf

3.5 Information Retrieval
T. van der Weide. 2004. Introduction to IR and hypertext.
Ref:http://osiris.cs.kun.nl/iris/web-docs/edu/ir1/

3.6 Information Retrieval:Data Structures & Algorithms
Bill Frakes and Ricardo Baeza-Yates
Ref:http://www.dcc.uchile.cl/~rbaeza/iradsbook/irbook.html

3.7 Managing Gigabytes: Compressing and Indexing Documents and Images
Ian H. Witten, Alistair Moffat, and Timothy C. Bell
Ref:http://www.cs.mu.oz.au/mg/

3.8 Lucene In Action
A guide to the Java search engine

3.9 搜索引擎—原理、技术与系统
Search Engine: Principle, Technology and Systems
李晓明 闫宏飞 王继民(北大天网)

4 研究资源
Conferences
Journals
Others

4.1 Conferences
TREC
SIGIR

4.1.1 TREC
http://trec.nist.gov/

4.1.2 SIGIR
http://www.sigir2006.org/
http://www.sigir2007.org/

4.2 Journals
国外
ACM Transactions on Information Systems (TOIS)
Information Processing and Management (IP&M)
国内
中文信息学报
情报学报
现代图书情报技术
情报杂志
情报科学

4.3 Others
4.3.1 国际著名研究机构和代表人物
美国康奈尔大学Salton(1927-1995) 现代信息检索的奠基人
SMART的完成人
第一任Salton奖得主,ACM Fellow

英国剑桥大学Sparck Jones (1935-2007)
概率检索模型的提出者之一
NLP和IR中的先辈
曾获ACL(自然语言处理领域会议)终身成就奖和Salton奖

美国UMass(University of Massachusetts Amherst) CIIR W. B. Croft
ACM Fellow
基于统计语言建模IR模型的提出者和倡导者
和CMU共同开发了Lemur工具
Salton奖得主

英国Glasgow大学Rijsbergen
ACM Fellow
信息检索逻辑推理学派的提出者和倡导者
现在试图用量子物理的方法解决IR问题
Salton奖得主

英国微软剑桥研究院、伦敦城市大学Robertson
概率检索模型的倡导者
开发了OKAPI
Salton奖得主

美国CMU
美国UIUC
微软研究院
IBM研究院
Google研究院

4.3.2 国内著名研究机构
哈尔滨工业大学信息检索研究室
http://ir.hit.edu.cn/
北大计算机网络与分布式系统实验室
http://net.pku.edu.cn/
中国科学院计算技术研究所中文自然语言处理开放平台
http://www.nlp.org.cn/

4.3.3 一些活跃的华裔学者1-2
加拿大蒙特利尔大学聂建云教授:跨语言检索、IR模型
美国UIUC Chengxiang Zhai博士:IR模型
美国CMU Yiming Yang教授:文本分类
台湾中研院简立峰:号称“中文搜索”第一人,加入Google研究院

4.3.4 著名商业人士

[此贴子已经被作者于2010-12-14 08:47:38编辑过]

 回到顶部