首页python爬虫获取新闻标题

python爬虫获取新闻标题

时间: 2023-11-21 10:05:52 浏览: 277

Python爬虫可以通过使用beautifulsoup4、request、re等库来获取新闻标题。具体步骤如下： 1. 使用requests库获取新闻网页的HTML源代码。 2. 使用beautifulsoup4库解析HTML源代码，获取新闻标题所在的标签。 3. 使用re库对获取到的新闻标题进行清洗和处理，去除多余的空格和特殊字符。 4. 将获取到的新闻标题存储到csv文件中，方便后续的数据分析。参考代码如下： ``` import requests from bs4 import BeautifulSoup import re import csv # 获取新闻网页的HTML源代码 url = 'http://news.baidu.com/' response = requests.get(url) html = response.text # 使用beautifulsoup4库解析HTML源代码，获取新闻标题所在的标签 soup = BeautifulSoup(html, 'html.parser') news_list = soup.find_all('a', class_='title') # 使用re库对获取到的新闻标题进行清洗和处理 news_titles = [] for news in news_list: title = news.get_text().strip() title = re.sub('\s+', ' ', title) news_titles.append(title) # 将获取到的新闻标题存储到csv文件中 with open('news_titles.csv', 'w', newline='', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow(['新闻标题']) for title in news_titles: writer.writerow([title]) ```

阅读全文