使用Pandas将豆瓣电影top250爬取的信息按照阶段和报名人数排降序后保存到mysql数据库中
时间: 2023-07-16 07:13:29 浏览: 188
Python爬取豆瓣top250电影数据,并导入MySQL,写入excel
5星 · 资源好评率100%
首先,我们需要安装Pandas和MySQL驱动程序。可以通过以下命令进行安装:
```python
!pip install pandas
!pip install pymysql
```
接下来,我们可以使用Pandas从CSV文件中加载数据,并将其按照阶段和报名人数排序。假设我们已经从豆瓣电影网站爬取了数据并保存为CSV文件“douban_top250.csv”,可以使用以下代码进行排序:
```python
import pandas as pd
# 从CSV文件中加载数据
df = pd.read_csv('douban_top250.csv')
# 按照阶段和报名人数排序
df = df.sort_values(by=['阶段', '报名人数'], ascending=[True, False])
```
接下来,我们需要将排序后的数据保存到MySQL数据库中。假设我们已经创建了名为“douban_top250”的表格,可以使用以下代码将数据保存到MySQL中:
```python
import pymysql
from sqlalchemy import create_engine
# 创建MySQL连接
engine = create_engine('mysql+pymysql://<username>:<password>@<host>/<database>')
# 将数据保存到MySQL中
df.to_sql('douban_top250', engine, if_exists='replace', index=False)
```
在上面的代码中,我们使用SQLAlchemy创建了一个MySQL连接,并使用Pandas的to_sql方法将数据保存到名为“douban_top250”的表格中。如果表格已经存在,则使用if_exists参数指定替换原有表格。index参数指定不将行索引作为一个单独的列保存到数据库中。
注意:在保存数据到MySQL之前,需要先在MySQL中创建名为“douban_top250”的表格,并且表格中的列需要与CSV文件中的列一一对应。
阅读全文