课外天地 李树青学习天地信息检索原理课件 → [转帖]Heritrix的使用


  共有26123人关注过本帖树形打印复制链接

主题:[转帖]Heritrix的使用

帅哥哟,离线,有人找我吗?
admin
  1楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1940 积分:26616 威望:0 精华:34 注册:2003/12/30 16:34:32
[转帖]Heritrix的使用  发帖心情 Post By:2008/5/14 10:45:57 [显示全部帖子]

这是网上的一个配置运行Heritrix的博客,说的很详细,大家可以参考一下

http://hi.baidu.com/wangyantsing/blog/item/9a14ba01c51a9a00728da540.html


 回到顶部
帅哥哟,离线,有人找我吗?
admin
  2楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1940 积分:26616 威望:0 精华:34 注册:2003/12/30 16:34:32
回复  发帖心情 Post By:2009/5/20 19:23:24 [显示全部帖子]

一般而言,这种错误的产生原因在于没有正确指定jar包的位置,如下面的指令就需要进入heritrix-1.12.0.jar所在的目录,在本例中该目录为:E:\heritrix,方法为:

e:

cd E:\heritrix

然后执行下面的命令行指令:

java -Xmx512m -Dheritrix.home=e:\\heritrix -cp "E:\\heritrix\\heritrix-1.12.0.jar;E:\\heritrix\\lib\\commons-codec-1.3.jar;E:\\heritrix\\lib\\commons-collections-3.1.jar;E:\\heritrix\\lib\\dnsjava-2.0.3.jar;E:\\heritrix\\lib\\poi-scratchpad-2.0-RC1-20031102.jar;E:\\heritrix\\lib\\commons-logging-1.0.4.jar;E:\\heritrix\\lib\\commons-httpclient-3.0.1.jar;E:\\heritrix\\lib\\commons-cli-1.0.jar;E:\\heritrix\\lib\\mg4j-1.0.1.jar;E:\\heritrix\\lib\\javaswf-CVS-SNAPSHOT-1.jar;E:\\heritrix\\lib\\bsh-2.0b4.jar;E:\\heritrix\\lib\\servlet-tomcat-4.1.30.jar;E:\\heritrix\\lib\\junit-3.8.2.jar;E:\\heritrix\\lib\\jasper-compiler-tomcat-4.1.30.jar;E:\\heritrix\\lib\\commons-lang-2.1.jar;E:\\heritrix\\lib\\itext-1.2.0.jar;E:\\heritrix\\lib\\poi-2.0-RC1-20031102.jar;E:\\heritrix\\lib\\jetty-4.2.23.jar;E:\\heritrix\\lib\\commons-net-1.4.1.jar;E:\\heritrix\\lib\\libidn-0.5.9.jar;E:\\heritrix\\lib\\ant-1.6.2.jar;E:\\heritrix\\lib\\fastutil-5.0.3-heritrix-subset-1.0.jar;E:\\heritrix\\lib\\je-3.2.13.jar;E:\\heritrix\\lib\\commons-pool-1.3.jar;E:\\heritrix\\lib\\jasper-runtime-tomcat-4.1.30.jar" org.archive.crawler.Heritrix

 回到顶部
帅哥哟,离线,有人找我吗?
admin
  3楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1940 积分:26616 威望:0 精华:34 注册:2003/12/30 16:34:32
回复  发帖心情 Post By:2009/5/20 22:46:25 [显示全部帖子]

路径F:\\My Documents\\学习资源\\信息检索\\heritrix含有空格,而命令提示符遇到空格则认为结束,下面的部分是另一个参数,所以产生错误

正确的方式是使用双引号,如“F:\\My Documents\\学习资源\\信息检索\\heritrix


 回到顶部