如何对人民网进行爬虫之后保存在excel中
时间: 2024-03-15 15:44:42 浏览: 65
首先,您需要使用 Python 中的 requests 和 BeautifulSoup 库来进行爬取和解析网页。以下是一个基本的示例代码:
```python
import requests
from bs4 import BeautifulSoup
import openpyxl
url = 'http://www.people.com.cn/'
# 发送请求并获取响应内容
response = requests.get(url)
html = response.content
# 解析网页内容
soup = BeautifulSoup(html, 'html.parser')
news_list = soup.find_all('div', class_='p1_con')
# 创建一个 Excel 文件,并添加一个工作表
workbook = openpyxl.Workbook()
worksheet = workbook.active
# 遍历新闻列表,将标题和链接保存到 Excel 中
for news in news_list:
title = news.find('a').text
link = news.find('a')['href']
worksheet.append([title, link])
# 保存 Excel 文件
workbook.save('people_news.xlsx')
```
这个示例代码可以爬取人民网首页的新闻标题和链接,并将它们保存在一个名为 `people_news.xlsx` 的 Excel 文件中。您可以根据自己的需求修改代码,并使用第三方库,如 pandas,来更好地处理和保存数据。
阅读全文