如何用python在网站上爬取具有品名、市场、分类、时间、价格属性的农产品的数据,并生成excel文件
时间: 2023-12-22 22:03:09 浏览: 28
要将爬取的数据保存到Excel文件中,可以使用Python中的pandas库。下面是一个示例代码,可以爬取阿里巴巴网站上的农产品数据,并将其保存到Excel文件中。
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 请求页面
url = 'https://www.1688.com/'
params = {'keywords': '农产品', 'n': 'y', 'netType': '1%2C11'}
response = requests.get(url, params=params)
# 解析页面
soup = BeautifulSoup(response.text, 'html.parser')
products = soup.find_all('div', {'class': 'sm-offer-item'})
# 提取数据
data = []
for product in products:
name = product.find('a', {'class': 'sm-offer-title'}).text.strip()
category = product.find('div', {'class': 'sm-offer-cat'}).text.strip()
date = product.find('div', {'class': 'sm-offer-pubtime'}).text.strip()
price = product.find('span', {'class': 'sm-offer-priceNum'}).text.strip()
market = product.find('div', {'class': 'sm-offer-companyName'}).find('a').text.strip()
# 将数据添加到列表中
data.append([name, category, date, price, market])
# 将数据转换为DataFrame格式
df = pd.DataFrame(data, columns=['品名', '分类', '时间', '价格', '市场'])
# 将数据保存到Excel文件中
df.to_excel('products.xlsx', index=False)
```
以上代码中,我们使用pandas库将提取到的数据转换为DataFrame格式,并将其保存到Excel文件中。需要注意的是,要使用pandas库需要先安装它,可以使用pip命令进行安装:`pip install pandas`。
执行上述代码后,会在当前目录下生成一个名为“products.xlsx”的Excel文件,其中包含爬取到的农产品数据。