用request和re库爬取新闻标题和正文
时间: 2024-12-02 16:19:59 浏览: 19
在Python中,如果你想要利用`requests`库来获取网页内容,并配合`BeautifulSoup`库解析HTML以便提取新闻标题和正文,可以按照以下步骤操作:
首先,你需要安装这两个库,如果还没有安装,可以使用pip命令:
```bash
pip install requests beautifulsoup4
```
然后,你可以编写一个简单的脚本来完成这个任务:
```python
import requests
from bs4 import BeautifulSoup
# 定义目标网址
url = "https://www.example.com" # 请替换为你想爬取的新闻网站URL
# 使用requests.get()获取网页内容
response = requests.get(url)
# 检查请求是否成功(状态码200表示成功)
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 查找新闻标题和正文的位置,这取决于网站的具体结构,通常会在<h1>, <h2>标签下或class、id为news-title和news-content的部分
title_tags = soup.find_all('h1', class_='news-title') or soup.find_all('h2', class_='news-title') # 假设标题在这样的标签里
article_tags = soup.find_all('div', class_='news-content') or soup.find_all('p', id='news-content') # 同理,正文在这里
for title in title_tags:
print(title.text) # 打印标题文本
for article in article_tags:
print(article.get_text()) # 打印文章的纯文本内容
else:
print(f"无法访问页面,响应状态码:{response.status_code}")
```
请注意,实际操作时需要针对目标网站的具体HTML结构进行调整。以上代码只是一个基本示例,实际应用中可能需要处理JavaScript渲染的内容或者使用Selenium等工具。
阅读全文