课外天地 李树青学习天地信息检索原理课件 → [转帖]Heritrix的使用


  共有25866人关注过本帖树形打印复制链接

主题:[转帖]Heritrix的使用

帅哥哟,离线,有人找我吗?
admin
  1楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1939 积分:26594 威望:0 精华:34 注册:2003/12/30 16:34:32
[转帖]Heritrix的使用  发帖心情 Post By:2008/5/14 10:45:57 [只看该作者]

这是网上的一个配置运行Heritrix的博客,说的很详细,大家可以参考一下

http://hi.baidu.com/wangyantsing/blog/item/9a14ba01c51a9a00728da540.html


 回到顶部
美女呀,离线,留言给我吧!
watermelon
  2楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:新手上路 帖子:2 积分:162 威望:0 精华:0 注册:2009/3/30 13:01:15
  发帖心情 Post By:2009/5/20 14:58:30 [只看该作者]

老师,在命令提示符里输入批处理命令,出现了这个错误

Exception in thread "main" java.lang.NoClassDefFoundError: org/archive/crawler/Heritrix

Caused by: java.lang.ClassNotFoundException: org.archive.crawler.Heritrix

at java.net.URLClassLoader$1.run(Unknown Source)

at java.security.AccessController.doPrivileged(Native Method)

at java.net.URLClassLoader.findClass(Unknown Source)

at java.lang.ClassLoader.loadClass(Unknown Source)

at sun.misc.Launcher$AppClassLoader.loadClass(Unknown Source)

at java.lang.ClassLoader.loadClass(Unknown Source)

at java.lang.ClassLoader.loadClassInternal(Unknown Source)


 回到顶部
帅哥哟,离线,有人找我吗?
admin
  3楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1939 积分:26594 威望:0 精华:34 注册:2003/12/30 16:34:32
回复  发帖心情 Post By:2009/5/20 19:23:24 [只看该作者]

一般而言,这种错误的产生原因在于没有正确指定jar包的位置,如下面的指令就需要进入heritrix-1.12.0.jar所在的目录,在本例中该目录为:E:\heritrix,方法为:

e:

cd E:\heritrix

然后执行下面的命令行指令:

java -Xmx512m -Dheritrix.home=e:\\heritrix -cp "E:\\heritrix\\heritrix-1.12.0.jar;E:\\heritrix\\lib\\commons-codec-1.3.jar;E:\\heritrix\\lib\\commons-collections-3.1.jar;E:\\heritrix\\lib\\dnsjava-2.0.3.jar;E:\\heritrix\\lib\\poi-scratchpad-2.0-RC1-20031102.jar;E:\\heritrix\\lib\\commons-logging-1.0.4.jar;E:\\heritrix\\lib\\commons-httpclient-3.0.1.jar;E:\\heritrix\\lib\\commons-cli-1.0.jar;E:\\heritrix\\lib\\mg4j-1.0.1.jar;E:\\heritrix\\lib\\javaswf-CVS-SNAPSHOT-1.jar;E:\\heritrix\\lib\\bsh-2.0b4.jar;E:\\heritrix\\lib\\servlet-tomcat-4.1.30.jar;E:\\heritrix\\lib\\junit-3.8.2.jar;E:\\heritrix\\lib\\jasper-compiler-tomcat-4.1.30.jar;E:\\heritrix\\lib\\commons-lang-2.1.jar;E:\\heritrix\\lib\\itext-1.2.0.jar;E:\\heritrix\\lib\\poi-2.0-RC1-20031102.jar;E:\\heritrix\\lib\\jetty-4.2.23.jar;E:\\heritrix\\lib\\commons-net-1.4.1.jar;E:\\heritrix\\lib\\libidn-0.5.9.jar;E:\\heritrix\\lib\\ant-1.6.2.jar;E:\\heritrix\\lib\\fastutil-5.0.3-heritrix-subset-1.0.jar;E:\\heritrix\\lib\\je-3.2.13.jar;E:\\heritrix\\lib\\commons-pool-1.3.jar;E:\\heritrix\\lib\\jasper-runtime-tomcat-4.1.30.jar" org.archive.crawler.Heritrix

 回到顶部
美女呀,离线,留言给我吧!
watermelon
  4楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:新手上路 帖子:2 积分:162 威望:0 精华:0 注册:2009/3/30 13:01:15
  发帖心情 Post By:2009/5/20 22:23:42 [只看该作者]

恩,谢谢老师,我把heritrix拷进e盘就可以了,但是上课老师讲路径可以换,我的heritrix文件夹路径原来是F:\My Documents\学习资源\信息检索\heritrix,我就在CMD里面打开了这个路径下的heritrix文件夹,然后把上面代码里的E:\\heritrix\\都换成了F:\\My Documents\\学习资源\\信息检索\\heritrix,结果出现了和上面一样的错误,为什么这么改不行呢?是不是因为文件夹名称是中文的?

PS:不好意思老师,我回帖后才知道要到清新茶社去发帖~~以后知道了~~

[此贴子已经被作者于2009-5-20 22:24:18编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
admin
  5楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1939 积分:26594 威望:0 精华:34 注册:2003/12/30 16:34:32
回复  发帖心情 Post By:2009/5/20 22:46:25 [只看该作者]

路径F:\\My Documents\\学习资源\\信息检索\\heritrix含有空格,而命令提示符遇到空格则认为结束,下面的部分是另一个参数,所以产生错误

正确的方式是使用双引号,如“F:\\My Documents\\学习资源\\信息检索\\heritrix


 回到顶部