今天小作业:自己构造一个页面或者取复制一个页面的源码放在一个自己命名的txt文件中,通过进行正则表达式匹配获取自己想要获取的东西,然后将获取到的东西写入到一个文件中,可以是txt、csv
时间: 2024-04-11 12:29:45 浏览: 119
你可以使用Python中的`requests`库来获取页面的源码,并使用正则表达式来匹配所需内容。以下是一个示例代码,用于获取网页源码并提取链接并将其写入到一个txt文件中:
```python
import requests
import re
# 发送GET请求获取网页源码
url = "https://example.com" # 替换为你想要获取的页面的URL
response = requests.get(url)
html_content = response.text
# 使用正则表达式匹配链接
pattern = r'<a\s+(?:[^>]*?\s+)?href="([^"]*)"'
links = re.findall(pattern, html_content)
# 将链接写入到txt文件中
output_file = "links.txt" # 替换为你想要保存链接的文件名
with open(output_file, "w") as file:
for link in links:
file.write(link + "\n")
```
你可以根据你的需求修改和扩展这个代码,以匹配和提取你想要的内容,并将其写入到指定的文件中。记得安装`requests`库和了解更多关于正则表达式的知识。祝你成功完成小作业!
阅读全文