没有合适的资源?快使用搜索试试~ 我知道了~
首页htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读
htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读
4星 · 超过85%的资源 需积分: 9 46 下载量 51 浏览量
更新于2023-03-03
评论
收藏 85KB DOC 举报
htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读htmlparser 使用指南 入门 必读
资源详情
资源评论
资源推荐
使用指南
五月
需要做一个垂直搜索引擎,比较了 和 !!的功能,尽管 在容错性、性能
等方面的口碑好像比 !! 好("# 也用的是 ),但感觉 的测试用例
和文档都比 !! 都少,而且 !! 基本上能够满足垂直搜索引擎页面处理分析的需求,因
此先研究一 下 !! 的使用,有空再研究 和 $# !! 的使用。 的
功能还是官方说得最为清楚,
!!# % & #'! !(" !##! # !!) #*
!# !#(")!! )! #!+! ,##) "!-!&##!," .
("% & / *0# ) !'" 1 , .*
1)" "2, ! '( !!
!+! ,# ! )! #("2, 1! . !,!
)!,! ,#'! '(!,!"!,) *3#!#!
&!#,,! +! ,#)!1' .4!#*5) !!
"' # #!&# ! )! )!#.1' .1###- .
,! # ##. &!' #""*
研究的重点还是 +! ,# 的使用,有空再研究 ! )! # 的使用。
、 !! 对 页面处理的数据结构
如图所示, !! 采用了经典的 # 模式,通过
!6、+6、 .6、'! ,6 和 . 来描述 页面各元素。
org.htmlparser.Node:
6 接口定义了进行树形结构节点操作的各种典型操作方法,包括:
节点到 html 文本、text 文本的方法: #+!#.、
典型树形结构遍历的方法:
. !、.#!、.7#!#、. #、.!&#"#'#.、.6+#'#.、
.+
获取节点对应的树形结构结构的顶级节点 Page 对象方法:. .
获取节点起始位置的方法:. !##、.##
Visitor 方法遍历节点时候方法: ,,64##!&##!
Filter 方法:,,06##67#!-!
Object 方法:!#.、,
org.htmlparser.nodes.AbstractNode:
'! ,6 是形成 树形结构抽象基类,实现了 6 接口。
在 !! 中,6 分成三类:
RemarkNode:代表 中的注释
TagNode:标签节点。
TextNode:文本节点
这三类节点都继承 '! ,6。
org.htmlparser.nodes.TagNode:
.6 包含了对 处理的核心的各个类,是所有 8 的基类,其中有分为包含其他 8 的复合
节点 # . 和不包含其他 8 的叶子节点 .。
复合节点 CompositeTag:
./( ./"/"#9-###9-###/"9#&7! .7!
. #. .
. ' .# .:';, . ! .! .,!# ., . (
. '"
' ! '1 ' .+ ! .# .
叶子节点 TAG:
/ !) .9,( .7! .0 . .0" .% . .!,#.0!",
# .
、 !! 对 页面处理的算法
主要是如下几种方式
采用 Visitor 方式访问 Html
!(<
!! !!=1 !!>
!!*?@ABB111*..*,C>
!!*,#. !!*.,#.>
64##!&##!=164##!<
"'#,&#&## . . .<
..!*) @4##! . #AC
D .*. .6 DCE #AC
D .*. >
F
F>
!!*&##63#&##!>
F, , !!+,#<
*!# ,! ,>
F
采用 Filter 方式访问 html
!(<
67#!-!=16 7#!# .*, >
!! !!=1 !!>
!!*?@ABB111*..*,C>
!!*,#. !!*.,#.>
6##= !!*+! ,6 ,-!>
)!##=>#G#*#$>#DD<
# .=# .#*#>
..!*) @# .##ACD*+! ,#>
F
F, ,+,#<
*!# ,! ,>
F
采用 org.htmlparser.beans 方式
另外 !!还在 !.* !!*' 中对一些常用的方法进行了封装,以简化操作,例如:
!! !!=1 !!>
#/ #/ =1#/ >
#/ *?@ABB111*..*,C>
?HI"!=#/ *.#>
)!##=>#G"!*.>#DD<
?"!="!H#I>
剩余13页未读,继续阅读
boy_Javac
- 粉丝: 0
- 资源: 11
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- stc12c5a60s2 例程
- Android通过全局变量传递数据
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论4