课外天地 李树青学习天地信息检索原理课件 → 一个求VSM的Excel文档


  共有25417人关注过本帖树形打印复制链接

主题:一个求VSM的Excel文档

帅哥哟,离线,有人找我吗?
admin
  1楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1939 积分:26594 威望:0 精华:34 注册:2003/12/30 16:34:32
一个求VSM的Excel文档  发帖心情 Post By:2008/4/11 6:03:42 [只看该作者]

 下载信息  [文件大小:   下载次数: ]
点击浏览该文件:

处理的文档集合包含三个文档,四个词项,具体关系为:

doc1 doc2 doc3
Car 27 4 24
Auto 3 33 0
Insurance 0 33 29
best 14 0 17

得到的文档向量为:

doc1 doc2 doc3
Car 0 0 0
Auto 0.21 0.71 0
Insurance 0 0.71 0.86
best 0.98 0 0.51

查询为:Auto Insurance

相应的查询向量为:(0,0.707,0.707,0)

最终得到的查询结果为:(doc1,doc2,doc3)=(0.148,1,0.61)

[此贴子已经被作者于2008-4-11 6:52:22编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
刘焕涛
  2楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:新手上路 帖子:2 积分:232 威望:0 精华:0 注册:2010/3/30 8:26:43
  发帖心情 Post By:2010/4/5 23:12:29 [只看该作者]

如果将doc1 的auto 也改为29。那么doc1和doc3的结果按理应该相同。但却是

0.6410.61

是不是因为doc1的best词频14 小于doc3的17 而使得doc1 的auto的 t f 较大所致的?


 回到顶部
帅哥哟,离线,有人找我吗?
admin
  3楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1939 积分:26594 威望:0 精华:34 注册:2003/12/30 16:34:32
回复  发帖心情 Post By:2010/4/6 13:26:25 [只看该作者]

我没有看懂你的意思

如果两个文档向量的值一样,则计算结果应该是一样的

将doc1的auto 也改为29并不能保证和doc3向量一样,为什么说“doc1和doc3的结果按理应该相同”?


 回到顶部
帅哥哟,离线,有人找我吗?
刘焕涛
  4楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:新手上路 帖子:2 积分:232 威望:0 精华:0 注册:2010/3/30 8:26:43
  发帖心情 Post By:2010/4/13 1:05:01 [只看该作者]

明白了。还是应该看向量的值。

 回到顶部