信息检索原理课件-[推荐]如何区别信息检索中的ad hoc和filering课外天地李树青

以文本方式查看主题

-  课外天地李树青  (http://www.njcie.com/bbs/index.asp)
--  信息检索原理课件  (http://www.njcie.com/bbs/list.asp?boardid=16)
----  [推荐]如何区别信息检索中的ad hoc和filering  (http://www.njcie.com/bbs/dispbbs.asp?boardid=16&id=638)

--  作者：admin
--  发布时间：2009/2/24 10:16:50
--  [推荐]如何区别信息检索中的ad hoc和filering

参见：http://www.dmresearch.net/Classification-algorithm/200412/1849.html

TREC刚开始的时候只有两个任务，ad hoc和routing。

前者类似于图书馆里的书籍检索，即书籍库(数据库)相对稳定不变，不同用户的查询要求是千变万化的。这种检索就称为ad hoc。基于Web的搜索引擎也属于这一类。

后者的情况与前者相对，用户的查询要求相对稳定。在routing中，查询常常称为profile，也就是通常所说的兴趣，用户的兴趣在一段时间内是稳定不变的，但是数据库(更确切的说，是数据流)是不断变化的。这种任务很象我们所说的新闻定制什么的，比如用户喜欢体育，这个兴趣在一段时间内是不变的，而体育新闻在不断变化。

应该说，ad hoc和routing代表了IR的两个不同研究方向。前者的主要研究任务包括对大数据库的索引查询、查询的扩展等等；而后者的主要任务不是索引，而是对用户兴趣的建模，即如何对用户兴趣建立合适的数学模型。后者称为routing是很有道理的，因为不断到来的数据流根据用户的兴趣被分发到不同的用户中去，类似于网络中的路由寻径过程。

随着TREC的不断进行，TREC的任务有所变更，总的来说还是上面两类，不过名称有所变化，后者不再称为routing，而是称为filtering，routing本身成为filtering的一个子任务，filtering还有其它两个子任务adaptive filtering 和 batch filtering。前者对每个用户兴趣(用topic描述)仅有很少的正例，甚至没有
正例，后者给出的正例很多。adaptive filtering允许对用户的兴趣不断反馈(adaptive的含义)，batch filtering因每次TREC的要求不同，有时可以反馈，有时不允许反馈。在不允许反馈的情况下，batch filtering实际就是个静态分类的过程。routing和batch filtering基本上一样，不同的是，routing返回的
结果要排序，而batch filtering的结果是个集合，是不需要排序的，因为有排序，所以两者的评测方法也不同。batch filtering可以通过类recall/precision的方法进行评估，而routing的评测方法与ad hoc任务有些相似，因为通常的 ad hoc任务的返回结果也是要求排序的。

现在ad hoc retrieval的研究重点是
(1) 查询(query)的扩展(即如何使得query更贴近topic)和
(2) 匹配(相似度计算)

[此贴子已经被作者于2010-12-14 09:31:10编辑过]