如何仅使用requests和re库爬取新闻网站内容,并分别以文本文件储存到本机文件夹中
时间: 2023-05-17 17:02:46 浏览: 82
【Python应用实战案例】-爬取新闻网站新闻(代码).zip
5星 · 资源好评率100%
你可以使用以下代码来爬取新闻网站内容并将其储存在本地文件夹中:
```python
import requests
import re
url = 'https://www.example.com/news'
response = requests.get(url)
content = response.text
# 使用正则表达式提取新闻内容
pattern = re.compile('<div class="news-content">(.*?)</div>', re.S)
result = pattern.findall(content)
# 将新闻内容写入本地文件
for i, news in enumerate(result):
with open(f'news_{i}.txt', 'w', encoding='utf-8') as f:
f.write(news)
```
这段代码会爬取指定网站的新闻内容,并使用正则表达式提取出新闻内容。然后,它会将每篇新闻的内容写入一个单独的文本文件中,文件名为`news_0.txt`、`news_1.txt`等。你可以根据需要修改代码中的网站 URL 和正则表达式来适应不同的网站。
阅读全文