python爬虫获取新闻标题
时间: 2023-11-21 07:05:52 浏览: 267
Python爬虫可以通过使用beautifulsoup4、request、re等库来获取新闻标题。具体步骤如下:
1. 使用requests库获取新闻网页的HTML源代码。
2. 使用beautifulsoup4库解析HTML源代码,获取新闻标题所在的标签。
3. 使用re库对获取到的新闻标题进行清洗和处理,去除多余的空格和特殊字符。
4. 将获取到的新闻标题存储到csv文件中,方便后续的数据分析。
参考代码如下:
```
import requests
from bs4 import BeautifulSoup
import re
import csv
# 获取新闻网页的HTML源代码
url = 'http://news.baidu.com/'
response = requests.get(url)
html = response.text
# 使用beautifulsoup4库解析HTML源代码,获取新闻标题所在的标签
soup = BeautifulSoup(html, 'html.parser')
news_list = soup.find_all('a', class_='title')
# 使用re库对获取到的新闻标题进行清洗和处理
news_titles = []
for news in news_list:
title = news.get_text().strip()
title = re.sub('\s+', ' ', title)
news_titles.append(title)
# 将获取到的新闻标题存储到csv文件中
with open('news_titles.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
writer.writerow(['新闻标题'])
for title in news_titles:
writer.writerow([title])
```
阅读全文