HTML与正则表达式在信息过滤中的应用

需积分: 0 67 浏览量更新于2024-08-04 收藏 885KB DOCX 举报

"4.3_信息过滤规则-正则表达式1" 本文主要讨论了HTML页面的结构和解析方式，以及如何使用正则表达式进行信息过滤和页面链接的提取。HTML页面由不同的标记组成，包括单标记和双标记。单标记如用于表示段落，而双标记如用于强调文本。 1. HTML页面解析 - HTML标记通常以尖括号包围，分为单标记和双标记。单标记如无需闭合，而双标记如需成对出现。 - 双标记中的“内容”部分是受标记影响的文本，例如text to emphasize会使得“text to emphasize”被强调显示。 2. 标记属性 - 许多标记允许设置属性，比如颜色、大小等，这些属性在始标记中定义，如：<标记属性1=“值”属性2=“值”...> 3. 页面链接提取 - 当处理txt/html格式的页面时，需要分析文档以提取链接。首先，通过检查文件头信息或URL扩展名确定页面类型。 - 遇到特定标记如<A>,<AREA>,<FRAME>等，从其属性中（如href, src）获取目标URL，并提取正文作为链接描述。 - 使用正则表达式匹配如<ahref=>,<areahref=>,<framesrc=>,<imgsrc=>,<bodybackground=>,<appletcode=>等，收集URL并进行格式化。 4. 正则表达式简介 - 在处理HTML页面时，正则表达式是提取所需内容的关键工具。它是一种强大的模式匹配语言，能帮助定位和提取特定字符串。 - 在爬虫编程中，正则表达式常用于从HTML源码中抽取链接、文本或其他特定格式的数据。综上，HTML页面的结构和解析理解，以及熟练运用正则表达式，是有效过滤和提取网络信息的基础，尤其在网页抓取和数据分析领域至关重要。通过学习和掌握这些技术，开发者可以高效地从大量HTML数据中提取有价值的信息。

2.6.1 HTML 页面解析:

HTML 的标记总是封装在由小于一号(<)和大于号(>)构成的一对尖括号

之中

1、单标记

某些标记称为“单标记”，因为它只需单独使用就能完整地表达意思，这类

标记的语法是:

<标记>

最常用的单标记是，它表示一个段落(Paragraph 的结束，并在段落

后面加一空行。

2、双标记

另一类标记称为“双标记”，它由“始标记”和“尾标记”两部分构成，必

须成

对使用，其中始标记告诉 Web 浏览器从此处开始执行该标记所表示的功能，

而尾标记告诉 Web 浏览器在这里结束该功能。始标记前加一个斜杠(/)即成

为尾标记。这类标记的语法是:

<标记>内容</标记>

其中“内容”部分就是要被这对标记施加作用的部分。例如你想突出对某段

文字的显示，就将此段文字放在一对 标记中:

text to emphasize

3、标记属性

许多单标记和双标记的始标记内可以包含一些属性，其语法是:

<标记属性 1 属性 2 属性 3 ... >

各属性之间无先后次序，属性也可省略(即取默认值)，例如单标记<HR>

如下图微博的 HTML 页面:

4.页面链接的提取

页面链接的提取，只有当下载的文档是 txt/html 格式的页面时在有必要分

析。页面的类型可由该网页头信息分析得出，有些站点返回的应答信息格式不

完整，此时必须通过分析页面 URL 中的文件扩展名来判别类型。遇到带连接

下载后可阅读完整内容，剩余4页未读，立即下载

扈涧盛

粉丝: 30
资源: 319

HTML与正则表达式在信息过滤中的应用

编译原理 第四章 课件

论文初稿_目录2

【Python编程提升课程】：sre_constants模块，解锁正则表达式的更多可能

Linux-RHCE精讲教程之shell正则表达式: 正则表达式与网络数据包的过滤与提取

【数据清洗捷径】：sre_compile模块在正则表达式中的应用技巧

Linux-RHCE精讲教程之shell正则表达式: 常用正则表达式语法介绍

Linux-RHCE精讲教程之shell正则表达式: 正则表达式的性能优化与实用技巧

Linux-RHCE精讲教程之shell正则表达式: 使用正则表达式进行文本搜索与替换

Linux-RHCE精讲教程之shell正则表达式: 通过实例学习正则表达式的实际应用

Linux-RHCE精讲教程之shell正则表达式: 正则表达式在数据库查询及数据清理中的实践

最新资源

编译原理第四章课件