pandas读取csv文件并在写入mysql数据库时与数据库去重distinct
时间: 2023-09-13 10:07:29 浏览: 110
使用python的pandas库读取csv文件保存至mysql数据库
可以使用pandas库的drop_duplicates方法在读取csv文件时去除重复行,然后再将不重复的数据写入MySQL数据库中。
下面是一个示例代码:
```python
import pandas as pd
from sqlalchemy import create_engine
# 读取csv文件并去重
df = pd.read_csv('data.csv')
df.drop_duplicates(inplace=True)
# 连接MySQL数据库
engine = create_engine('mysql+pymysql://username:password@host:port/database')
# 将数据写入MySQL数据库中
df.to_sql('table_name', engine, if_exists='append', index=False, chunksize=10000)
```
其中,`username`和`password`分别为MySQL数据库的用户名和密码,`host`和`port`为MySQL服务器的地址和端口号,`database`为要写入数据的数据库名称,`table_name`为要写入数据的表名。
在将数据写入MySQL数据库时,`if_exists='append'`参数表示如果数据表已存在,则将数据追加到现有表中,`index=False`参数表示不将数据框索引列写入数据库,`chunksize=10000`参数表示每次写入10000条数据。另外,可以根据需要修改这些参数。
阅读全文