提取网页主题相关内容
一般在浏览 上的网页时会发现两部分内容:一部分是网页的主题信息,
另一部分则是与主题内容无关的导航条、广告信息、版权信息等内容,我们称
之为“噪音”内容。通过提取主题信息可以减少一半浏览时间,提高用户获取信
息的速度,从而增强 的可用性。那么如何准确、有效的获取 网页的
主题信息呢?下面给出了一种解决方案。
一、 解析 html
是一个对现有的 进行分析的快速实时的解析器首
先 从 下 载
!""#"$!#%& 解压缩得 '将 '
添加到 中并在程序中引入相应的 包。类 是
的入口将 文本信息传给它或者直接传递一个 () 地址
如*+,+++-./初始化一
个 实例 后紧接着就是对所传入的 内容进行解析方法
01231444将 内容中存在的所
有的标签 444 给解析出来放到一个列表 & 中去几乎 的标签都有一
个对应的类比如 &5、6、7、 等等这些标签
类都在 包中。根据要处理不同的标签传入不同的类这种
做法可以很方便地处理其他类型的标签。返回的列表中每个元素都是传入类的
一个实例通过这个实例可以访问到当前这个标签的起始位置、结束标签的位置
以及包含在标签中的文本信息同时也可以访问其父标签以及所有的子标签等等
同 时 可 以 通 过 方 法 来 对 标 签 中 包 含 的 信 息 进 行 清
洗 会自动把一些没有关闭的标签加上这样所生成的字符串中就
包含着完整的格式控制信息在页面上显示这样的信息也不会破坏版面布局达
到了预期的效果。
例如:有如下不规范的 文件有未关闭标签