Tomcat下Nutch部署及中文乱码解决方案

需积分: 10 97 浏览量更新于2024-09-20 收藏 237KB DOC 举报

"Nutch在Tomcat下部署的文档说明" Nutch是一个开源的Web爬虫项目，用于抓取互联网上的网页并建立索引，而Tomcat是一个流行的Java应用服务器，常用于部署Web应用程序。本教程将指导如何在Tomcat环境下部署Nutch，以便运行和展示抓取的数据。首先，确保你已经成功地使用Nutch执行了网页抓取。这通常涉及到配置Nutch的参数，如种子URL列表、抓取间隔等，并启动Nutch的抓取进程。抓取完成后，会生成一系列包含解析后的网页数据的文件，这些文件存储在你指定的目录下。接下来，部署Nutch到Tomcat。你需要把Nutch的Web应用程序包（war文件，例如nutch-0.9.war）解压缩，将其重命名为“nutch”，然后将整个“nutch”目录复制到你的Tomcat安装目录下的“webapps”文件夹内。例如，如果你的Tomcat安装在“/tomcat目录”，那么路径应该是“/tomcat/webapps/nutch”。在部署Nutch之前，需要修改一个关键配置文件，即`/webapps/nutch/WEB-INF/classes/nutch-site.xml`。你需要添加以下配置来指定抓取数据的存储位置： ```xml <nutch-conf> <property> <name>searcher.dir</name> <value>Your_crawl_dir_path</value> </property> </nutch-conf> ``` 这里的`Your_crawl_dir_path`应该替换为你实际的抓取数据目录，例如`D:\nutch-0.9\crawled2`。这个设置让Nutch知道在哪里查找抓取的数据以便进行搜索。部署完成后，通过浏览器访问`http://localhost:8080/nutch`，你应该能看到Nutch的搜索界面。如果在这个阶段遇到中文乱码问题，这是因为Tomcat的默认编码不支持中文。解决这个问题，需要编辑Tomcat的配置文件`/tomcat/apache-tomcat-6.0.20/conf/server.xml`，找到`<Connector>`标签，并添加`URIEncoding="UTF-8"`和`useBodyEncodingForURI="true"`属性，如下所示： ```xml <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/> ``` 完成修改后，重启Tomcat服务，中文乱码问题应该得到解决。在抓取动态网站时，Nutch遵循特定的URL过滤规则。默认情况下，它可能无法抓取含有特定字符（如`?`、`*`、`!`、`@`或`=】）的URL，因为这些字符通常与动态页面有关。要在Nutch中抓取这些动态页面，你需要编辑`conf/regex-urlfilter.txt`和`conf/crawl-urlfilter.txt`这两个文件，将过滤规则从否定（跳过）改为允许。例如，将`-[?*!@=]`改为`+#[?*!@=]`，使得Nutch不再排除含有这些字符的URL。以上就是在Tomcat环境下部署和配置Nutch的基本步骤，以及处理中文乱码和抓取动态网站的一些注意事项。通过这个过程，你可以有效地在本地运行Nutch搜索引擎，浏览和搜索你抓取的网页内容。

如果已经抓取成功，则可以在 Tomcat 上部署了

将 nutch-0.9 war 解压出来，命名为 nutch，复制到 tomcat 目录/webapps 下

修改 /webapps/nutch/WEB-INF/classes/nutch-site.xml :

将

<nutch-conf>

</nutch-conf>

换成

<nutch-conf>

<name>searcher.dir</name>

<value>Your_crawl_dir_path</value>

</property>

</nutch-conf>

Your_crawl_dir_path 指刚才抓取网页时网页保存的文件夹，比如我的就是： D:utch-0.9\

crawled2，上面则要写 D:\nutch-0.9\crawled2

最后在浏览器中输入 http://localhost:8080/nutch ，就可以看到 nutch 的搜索界面了。

这时候的 nutch 在搜索时可能会出现中文乱码，其实这是 tomcat 的问题。

解决办法：对/tomcat/apache-tomcat-6.0.20/conf 目录下的 server.xml 做一下修改：

将

<Connector port="8080" protocol="HTTP/1.1"

下载后可阅读完整内容，剩余5页未读，立即下载

hongtengyun

粉丝: 0
资源: 7

Tomcat下Nutch部署及中文乱码解决方案

windows下nutch的安装配置以及与tomcat的集成.doc

nutch爬虫系统分析报告.doc

apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

nutch 搜索模块流程.doc

nutch爬虫系统分析.doc

nutch配置nutch-default.xml

毕业论文-nutch爬虫系统分析.doc

nutch爬虫系统分析设计论文.doc

nutch流程解析.doc

Nutch-2.3-src.tar.gz

最新资源