没有合适的资源?快使用搜索试试~ 我知道了~
首页htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读
htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读

htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读
资源详情
资源评论
资源推荐

使用指南
五月
需要做一个垂直搜索引擎,比较了 和 !!的功能,尽管 在容错性、性能
等方面的口碑好像比 !! 好("# 也用的是 ),但感觉 的测试用例
和文档都比 !! 都少,而且 !! 基本上能够满足垂直搜索引擎页面处理分析的需求,因
此先研究一 下 !! 的使用,有空再研究 和 $# !! 的使用。 的
功能还是官方说得最为清楚,
!!# % & #'! !(" !##! # !!) #*
!# !#(")!! )! #!+! ,##) "!-!&##!," .
("% & / *0# ) !'" 1 , .*
1)" "2, ! '( !!
!+! ,# ! )! #("2, 1! . !,!
)!,! ,#'! '(!,!"!,) *3#!#!
&!#,,! +! ,#)!1' .4!#*5) !!
"' # #!&# ! )! )!#.1' .1###- .
,! # ##. &!' #""*
研究的重点还是 +! ,# 的使用,有空再研究 ! )! # 的使用。
、 !! 对 页面处理的数据结构
如图所示, !! 采用了经典的 # 模式,通过
!6、+6、 .6、'! ,6 和 . 来描述 页面各元素。
org.htmlparser.Node:
6 接口定义了进行树形结构节点操作的各种典型操作方法,包括:
节点到 html 文本、text 文本的方法: #+!#.、
典型树形结构遍历的方法:
. !、.#!、.7#!#、. #、.!&#"#'#.、.6+#'#.、
.+
获取节点对应的树形结构结构的顶级节点 Page 对象方法:. .
获取节点起始位置的方法:. !##、.##
Visitor 方法遍历节点时候方法: ,,64##!&##!
Filter 方法:,,06##67#!-!

Object 方法:!#.、,
org.htmlparser.nodes.AbstractNode:
'! ,6 是形成 树形结构抽象基类,实现了 6 接口。
在 !! 中,6 分成三类:
RemarkNode:代表 中的注释
TagNode:标签节点。
TextNode:文本节点
这三类节点都继承 '! ,6。
org.htmlparser.nodes.TagNode:
.6 包含了对 处理的核心的各个类,是所有 8 的基类,其中有分为包含其他 8 的复合
节点 # . 和不包含其他 8 的叶子节点 .。
复合节点 CompositeTag:
./( ./"/"#9-###9-###/"9#&7! .7!
. #. .
. ' .# .:';, . ! .! .,!# ., . (
. '"
' ! '1 ' .+ ! .# .
叶子节点 TAG:
/ !) .9,( .7! .0 . .0" .% . .!,#.0!",
# .
、 !! 对 页面处理的算法
主要是如下几种方式
采用 Visitor 方式访问 Html
!(<
!! !!=1 !!>
!!*?@ABB111*..*,C>

!!*,#. !!*.,#.>
64##!&##!=164##!<
"'#,&#&## . . .<
..!*) @4##! . #AC
D .*. .6 DCE #AC
D .*. >
F
F>
!!*&##63#&##!>
F, , !!+,#<
*!# ,! ,>
F
采用 Filter 方式访问 html
!(<
67#!-!=16 7#!# .*, >
!! !!=1 !!>
!!*?@ABB111*..*,C>
!!*,#. !!*.,#.>
6##= !!*+! ,6 ,-!>
)!##=>#G#*#$>#DD<
# .=# .#*#>
..!*) @# .##ACD*+! ,#>
F
F, ,+,#<
*!# ,! ,>
F
采用 org.htmlparser.beans 方式
另外 !!还在 !.* !!*' 中对一些常用的方法进行了封装,以简化操作,例如:
!! !!=1 !!>
#/ #/ =1#/ >
#/ *?@ABB111*..*,C>
?HI"!=#/ *.#>
)!##=>#G"!*.>#DD<
?"!="!H#I>
剩余13页未读,继续阅读











安全验证
文档复制为VIP权益,开通VIP直接复制

评论4