专业 java、php、iOS、C++、网页设计、平面设计、网络营销、游戏开发、前端与移动开发培训机构
地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于
jQuery 的操作方法来取出和操作数据。
heritrix(http://sourceforge.net/projects/archive-crawler/files / ),Heritrix 是一个由 java 开
发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它
良好的可扩展性,方便用户实现自己的抓取逻辑。
本案例我们要获取磁盘上文件的内容,可以通过文件流来读取文本文件的内容,对于
pdf、doc、xls 等文件可通过第三方提供的解析工具读取文件内容,比如 Apache POI 读取
doc 和 xls 的文件内容。
3.2.2. 创建文档对象
获 取 原 始 内 容 的 目 的 是 为 了 索 引 , 在 索 引 前 需 要 将 原 始 内 容 创 建 成 文 档
(Document),文档中包括一个一个的域(Field),域中存储内容。
这 里 我 们 可 以 将 磁 盘 上 的 一 个 文 件 当 成 一 个 document , Document 中 包 括 一 些
Field(file_name 文件名称、file_path 文件路径、file_size 文件大小、file_content 文件内
容),如下图:
注意:每个 Document 可以有多个 Field,不同的 Document 可以有不同的 Field,同一个
Document 可以有相同的 Field(域名和域值都相同)
每个文档都有一个唯一的编号,就是文档 id。
传智播客致力打造专业的 IT 实战培训课程——务实、创新、质量、专注、分享、责任
Document (文档)
Field (域)
Name : file_name ( 文 件 名
称)
Value : springmvc.txt
Field (域)
Name : file_path ( 文 件 路
径)
Value : e:/…/XXXXXX.txt
Field (域)
Name : file_content ( 文 件 内
容)
Value : 36312
Field (域)
Name : file_size ( 文 件 大
小)
Value : 346543
其它 Field. 。。。。。。。。。。。。