如何仅使用requests和re库爬取新闻网站内容
时间: 2023-05-17 08:02:42 浏览: 115
新闻网的信息爬取
您可以使用以下代码来仅使用requests和re库爬取新闻网站内容:
```python
import requests
import re
url = 'https://www.example.com/news'
response = requests.get(url)
content = response.text
pattern = '<div class="news-title">(.*?)</div>'
news_titles = re.findall(pattern, content)
for title in news_titles:
print(title)
```
这个代码片段将会爬取一个名为 "https://www.example.com/news" 的新闻网站,并使用正则表达式来提取新闻标题。请注意,这只是一个示例,您需要根据您要爬取的网站的 HTML 结构来编写适当的正则表达式。
阅读全文