案例背景:已知某一网站的网页部分内容如下所示,请将该网页内容存储到本机D:/web.txt。 要求:请解析出上述网页中所有以https开头的url,并输出。 1 2 3 4 5 6 7 8 9 10 11 12 13 <div class="top-nav-websiteapp"> <a href="https://www.website.com/w/app?channel=top-nav" class="lnk ">下载某某网站客户端</a> <div id="top-nav-appintro" class="more-items"> <p class="appintro-title">某某网站</p> <p class="slogan">我们的部落格</p> <div class="download"> <a ref="https://www.website.com/redirect?download=iOS">iPhone</a> <span>•</span> <a href="https://www.website.com/redirect?download= Ad ">Android</a> </div> </div> </div> 要求执行结果: https://www.website.com/w/app?channel=top-nav" https://www.website.com/redirect?download=iOS" https://www.website.com/redirect?download= Ad "
时间: 2024-01-03 08:41:48 浏览: 145
下面是 Python 3 语言的代码示例:
```python
import re
import requests
# 发送 GET 请求获取网页内容
url = "https://www.example.com/page"
response = requests.get(url)
html = response.text
# 解析网页中的所有以 https 开头的 URL
pattern = r"https://\S+"
urls = re.findall(pattern, html)
# 将结果输出到文件
with open("D:/web.txt", "w", encoding="utf-8") as f:
for url in urls:
f.write(url + "\n")
print(url)
```
代码解释:
1. 首先使用 `requests` 库发送 GET 请求获取目标网页的内容,将响应结果保存在 `response` 变量中。
2. 使用 `response.text` 属性获取网页的 HTML 内容,并将其保存在 `html` 变量中。
3. 定义正则表达式模式 `pattern`,用于匹配以 `https` 开头的 URL。在本例中,模式为 `r"https://\S+"`,其中 `\S` 表示匹配任意非空白字符。
4. 使用 `re.findall()` 函数在网页 HTML 中搜索符合模式 `pattern` 的所有字符串,并将结果保存在 `urls` 变量中。
5. 打开文件 `D:/web.txt`,使用 `for` 循环将所有符合条件的 URL 写入文件,并在控制台输出。
6. 在使用完文件后,使用 `with` 语句自动关闭文件。
阅读全文