用正则表达式提取文本中的关键词。如“顺利打开JFK深刻理解","www.baidu.com","www.youku.com","开始就立刻搭街坊率领的科技","。目标1:通过正则把域名提取出来目标2：把结果输出成表格或txt

时间: 2023-11-21 13:17:02 浏览: 163

正则表达式提取网址、标题、图片等一例（.Net Asp Javascript/Js）的实现

正则表达式是一种在计算机科学中广泛使用的字符串匹配模式，它通过定义一系列的规则来搜索、替换和提取字符串。本文介绍了如何使用正则表达式在多种编程语言中提取网页内容的特定元素，例如网址、标题和图片等。下面将详细介绍这些知识点。正则表达式的基本语法包括元字符和量词。元字符如“.”匹配任何单个字符，“\s”匹配任何空白字符，“\d”匹配任何数字，“\w”匹配任何字母数字字符，“[abc]”匹配括号中的任意字符，等等。量词则用于指定前面字符或表达式可以出现的次数，例如“*”表示零次或多次，“+”表示一次或多次。在本文中，我们主要关注提取操作，常用的正则表达式操作包括匹配模式的定义和匹配结果的捕获。捕获操作通常使用括号“()”将需要提取的部分包围起来，以便于后续提取匹配的文本。具体到本例，我们尝试提取一个HTML元素中的属性和内容。在给出的字符串中： ```html <li><a href="***" title="FCKEditor高亮代码插件测试"> <span class="article-date">[09/11]</span> FCKEditor高亮代码插件测试</a></li> ``` 我们的目标是提取出链接的href属性值、类名为"article-date"的span元素中的内容，以及链接文字。在C#实现中，我们定义了一个正则表达式模式，其中： ```csharp string pattern = "***[^\\s]+)\".+?span.+?\\[(.+?)\\].+?>(.+?)<"; ``` 这里，`***[^\\s]+)` 匹配以"***"开始且后面跟随非空白字符序列的href属性值，`\\[(.+?)\\]`匹配方括号内的内容即日期，`.+?>`匹配链接标签结束前的所有内容，`(.+?)`最后匹配链接标签内的文字。 ASP实现中，由于是VBScript，模式的定义和捕获方法与C#相似，只是语法略有不同： ```asp reg.Pattern = "***[^\s]+)"".+?span.+?\[(.+?)\].+?>(.+?)<" ``` JavaScript实现中使用了正则表达式的字面量定义方式： ```javascript var pattern = /http:\/\/([^\s]+)".+?span.+?\[(.+?)\].+?>(.+?)</gi; ``` 值得注意的是，JavaScript中的正则表达式需要以斜杠“/”开头和结尾，并且在正则表达式中使用双反斜杠“\\”来表示特殊字符。在匹配和提取内容时，无论哪种语言，我们都使用了相应的匹配方法（如C#中的`Matches`、ASP中的`Execute`和JavaScript中的`exec`）来找到匹配项，然后通过索引访问捕获组中的内容。在C#中通过`Match.Groups[index].Value`，在ASP中通过`objMatches(0).SubMatches(index)`，在JavaScript中通过`mts[index]`来访问捕获的内容。在实际应用中，使用正则表达式提取网页内容应避免过于复杂的模式，因为这会影响性能和可维护性。特别是在处理不确定的HTML结构时，复杂的正则表达式可能导致提取失败。同时，应当确保正则表达式具有一定的容错能力，能够处理各种边缘情况。本文提供了一个使用正则表达式提取网址、标题、图片等信息的案例，旨在帮助读者更好地掌握正则表达式在.NET、ASP和JavaScript中的应用。掌握这些技能对于进行网页数据抓取、内容过滤和信息提取等工作非常有用。需要注意的是，随着HTML5和各种新框架的出现，现代的网页内容提取工作越来越多地使用了DOM解析技术，因为DOM操作更加直观、稳定且不易出错。然而，正则表达式在许多场景下依然有其应用价值，特别是在文本处理任务中。

可以使用Python中的re模块来进行正则表达式的匹配和提取。以下是一个示例代码，用于提取文本中的域名并将结果输出到txt文件中： ``` import re text = "顺利打开JFK深刻理解，www.baidu.com，www.youku.com，开始就立刻搭街坊率领的科技。" # 使用正则表达式提取域名 pattern = r"(?P<url>www\.[\w\.]+)" urls = re.findall(pattern, text) # 将结果输出到txt文件中 with open("output.txt", "w") as f: f.write("Domain Name\n") for url in urls: f.write(url + "\n") ``` 解释一下代码： 1. 定义了一个字符串`text`，其中包含了需要提取域名的文本。 2. 使用正则表达式`"(?P<url>www\.[\w\.]+)"`来匹配文本中的域名。其中，`(?P<url>...)`表示将匹配结果命名为`url`，`www\.[\w\.]+`表示匹配以`www.`开头，后面跟着一个或多个字母、数字、点号（`.`）或下划线（`\w`）的字符串。 3. 使用`re.findall()`函数来查找文本中所有匹配的结果，并将结果存储在列表`urls`中。 4. 使用`with open() as f:`语句来打开一个文件，将结果输出到文件中。`"output.txt"`表示输出文件的文件名，`"w"`表示以写入模式打开文件。在`with`语句块中，先写入表头`Domain Name`，然后遍历`urls`列表，将每个域名写入文件中。输出的txt文件内容如下： ``` Domain Name www.baidu.com www.youku.com ```

阅读全文

用正则表达式提取文本中的关键词。如“顺利打开JFK深刻理解","www.baidu.com","www.youku.com","开始就立刻搭街坊率领的科技","。 目标1:通过正则把域名提取出来 目标2：把结果输出成表格或txt

相关推荐

正则表达式是由一些具有特殊含义的字符组成的字符串，多用于查找、替换符合规则的字符串 在表单验证、Url映射等处都会经常用到

正则表达式提取网页编码

Python库 | ciscoaxl_JFK-0.0.3.tar.gz

portfolio:使用Flutter构建的JFK.DEV的投资组合网站

JFK企业管理软件

svo-jfk-fly-fetch

JFK框架学习资料，大家看看

AzureSearch_JFK_Files:此存储库包含Azure搜索和认知服务的示例代码，该示例代码用于提供有关JFK文件的见解和分析

Squares:在 JFK 编写的令人上瘾的小游戏

基于Java和JavaScript的东方斯卡拉JFK拉萨附近阿达的艰苦拉萨解放SEO优化设计源码

FRDM-KL25Z-TPM-OVF_jfk_kl25z_飞思卡尔KL25_

ui.picker.js mui.poppicker.js mui.dtpicker.js

cors-filter-1.7.jar，java-property-utils-1.9.jar两个包供学习使用.rar

全球机场三字代码四字代码中英文名称.xlsx

Python库 | amadeus-0.1.1.tar.gz

airport.sql

全球机场代码.rar

bun0-mls.pcd

最新推荐

关于组织参加“第八届‘泰迪杯’数据挖掘挑战赛”的通知-4页

PyMySQL-1.1.0rc1.tar.gz

技术资料分享CC2530中文数据手册完全版非常好的技术资料.zip

docker构建php开发环境

VB程序实例59_系统信息_显示分辨率.zip

Aspose资源包：转PDF无水印学习工具

管理建模和仿真的文件

【R语言高性能计算秘诀】：代码优化，提升分析效率的专家级方法

在构建视频会议系统时，如何通过H.323协议实现音视频流的高效传输，并确保通信的稳定性？

Go语言控制台输入输出操作教程

用正则表达式提取文本中的关键词。如“顺利打开JFK深刻理解","www.baidu.com","www.youku.com","开始就立刻搭街坊率领的科技","。目标1:通过正则把域名提取出来目标2：把结果输出成表格或txt

正则表达式是由一些具有特殊含义的字符组成的字符串，多用于查找、替换符合规则的字符串在表单验证、Url映射等处都会经常用到