以文本方式查看主题 - 课外天地 李树青 (http://www.njcie.com/bbs/index.asp) -- 信息检索原理课件 (http://www.njcie.com/bbs/list.asp?boardid=16) ---- 一个求VSM的Excel文档 (http://www.njcie.com/bbs/dispbbs.asp?boardid=16&id=463) |
||||||||||||||||||||||||||||||||||||||||||||
-- 作者:admin -- 发布时间:2008/4/11 6:03:42 -- 一个求VSM的Excel文档
处理的文档集合包含三个文档,四个词项,具体关系为:
得到的文档向量为:
查询为:Auto Insurance 相应的查询向量为:(0,0.707,0.707,0) 最终得到的查询结果为:(doc1,doc2,doc3)=(0.148,1,0.61) [此贴子已经被作者于2008-4-11 6:52:22编辑过]
|
||||||||||||||||||||||||||||||||||||||||||||
-- 作者:刘焕涛 -- 发布时间:2010/4/5 23:12:29 -- 如果将doc1 的auto 也改为29。那么doc1和doc3的结果按理应该相同。但却是
是不是因为doc1的best词频14 小于doc3的17 而使得doc1 的auto的 t f 较大所致的? |
||||||||||||||||||||||||||||||||||||||||||||
-- 作者:admin -- 发布时间:2010/4/6 13:26:25 -- 回复 我没有看懂你的意思 如果两个文档向量的值一样,则计算结果应该是一样的 将doc1的auto 也改为29并不能保证和doc3向量一样,为什么说“doc1和doc3的结果按理应该相同”? |
||||||||||||||||||||||||||||||||||||||||||||
-- 作者:刘焕涛 -- 发布时间:2010/4/13 1:05:01 -- 明白了。还是应该看向量的值。 |