以文本方式查看主题

-  课外天地 李树青  (http://www.njcie.com/bbs/index.asp)
--  信息检索原理课件  (http://www.njcie.com/bbs/list.asp?boardid=16)
----  一个求VSM的Excel文档  (http://www.njcie.com/bbs/dispbbs.asp?boardid=16&id=463)

--  作者:admin
--  发布时间:2008/4/11 6:03:42
--  一个求VSM的Excel文档

 下载信息  [文件大小:   下载次数: ]
点击浏览该文件:

处理的文档集合包含三个文档,四个词项,具体关系为:

doc1 doc2 doc3
Car 27 4 24
Auto 3 33 0
Insurance 0 33 29
best 14 0 17

得到的文档向量为:

doc1 doc2 doc3
Car 0 0 0
Auto 0.21 0.71 0
Insurance 0 0.71 0.86
best 0.98 0 0.51

查询为:Auto Insurance

相应的查询向量为:(0,0.707,0.707,0)

最终得到的查询结果为:(doc1,doc2,doc3)=(0.148,1,0.61)

[此贴子已经被作者于2008-4-11 6:52:22编辑过]

--  作者:刘焕涛
--  发布时间:2010/4/5 23:12:29
--  

如果将doc1 的auto 也改为29。那么doc1和doc3的结果按理应该相同。但却是

0.6410.61

是不是因为doc1的best词频14 小于doc3的17 而使得doc1 的auto的 t f 较大所致的?


--  作者:admin
--  发布时间:2010/4/6 13:26:25
--  回复

我没有看懂你的意思

如果两个文档向量的值一样,则计算结果应该是一样的

将doc1的auto 也改为29并不能保证和doc3向量一样,为什么说“doc1和doc3的结果按理应该相同”?


--  作者:刘焕涛
--  发布时间:2010/4/13 1:05:01
--  
明白了。还是应该看向量的值。