pandas读取csv文件并在写入mysql数据库时与数据库去重distinct

时间: 2023-09-13 10:07:29 浏览: 110

使用python的pandas库读取csv文件保存至mysql数据库

在当下数据分析和数据处理领域，Python 作为一种功能强大的编程语言，因其简洁的语法和丰富的库支持而受到广泛青睐。pandas 是 Python 中一个极为流行的开源数据分析库，它提供了高性能的数据结构和数据分析工具。当需要从 CSV 文件中读取数据，并将其存储到 MySQL 数据库中时，pandas 库能够非常方便地完成这一任务。使用 pandas 的 read_csv() 函数可以轻松读取 CSV 文件，并将其转换为 DataFrame 对象，这是 pandas 中用于数据分析的核心数据结构之一。例如，读取位于 'G:\data_operation\python_book\chapter5\\sales.csv' 的 CSV 文件，代码如下： ```python import pandas as pd data = pd.read_csv('G:\data_operation\python_book\chapter5\\sales.csv') ``` 若 CSV 文件中包含日期格式的数据，则必须利用 pandas 提供的 to_datetime() 函数将这些字符串转换为日期时间格式，以便于后续的处理和分析。例如，如果第二列是日期数据，可以这样转换： ```python data.iloc[:,1] = pd.to_datetime(data.iloc[:,1]) ``` 转换类型之后，可以使用 print(data.dtypes) 来查看每列的数据类型。接下来，若想将数据框中的数据保存到 MySQL 数据库中，可以采用多种方法。一种方法是使用 MYSQLdb 库，该库可以与 Python 的交互式环境无缝结合，使得数据库操作变得简单。可以封装成一个类来实现创建表和添加数据的操作。例如： ```python import MySQLdb class Jess_mysql(): def __init__(self): self.mysql = MySQLdb.connect(user=mysql_name, host=mysql_host, password=mysql_password, database=mysql_database) self.conn = self.mysql.cursor() def create_table(self, table_names, col_names): # 创建表的相关操作 pass def add_data(self, table_name, col_names, col_data): # 添加数据到表中的操作 pass ``` 然而，pandas 与 MYSQLdb 库结合使用也存在一些缺点，比如处理大规模数据时可能会消耗较多时间。另一种更为现代和推荐的方法是使用 SQLAlchemy 库，它是一个数据库工具集，提供了一系列的数据库操作功能。使用 SQLAlchemy 的 create_engine() 方法可以创建与 MySQL 数据库的连接，然后可以利用 pandas 提供的 io.sql.to_sql() 函数将 DataFrame 数据框直接保存到数据库表中。例如： ```python from sqlalchemy import create_engine # 创建 SQLAlchemy 引擎 engine = create_engine('mysql+mysqldb://{user}:{password}@{host}:3306/{database}'.format( user=mysql_name, password=mysql_password, host=mysql_host, database=mysql_database)) # 将数据保存到数据库 data.to_sql(name='yunying', con=engine, index=False, if_exists='append') ``` 使用 SQLAlchemy 时，可以更灵活地定义数据表的创建和插入操作，并且在保存时需要注意日期格式的处理。由于 MySQL 中的日期字段可能被设置为特定的格式（如 varchar(20)），原始的日期格式（例如 2015-8-9）可能会丢失部分信息（例如只保存为 2015）。因此，保存之前必须确保日期数据已经被正确地转换为适合 MySQL 存储的格式。 pandas 与 SQLAlchemy 的结合使用是一种高效且现代的处理方式，尤其在面对复杂的数据结构和大规模数据集时，其性能和灵活性显著优于其他方法。然而，考虑到代码的复杂性以及对数据库专业知识的需求，初学者可能需要投入更多时间去学习和掌握这些高级工具的使用。

可以使用pandas库的drop_duplicates方法在读取csv文件时去除重复行，然后再将不重复的数据写入MySQL数据库中。下面是一个示例代码： ```python import pandas as pd from sqlalchemy import create_engine # 读取csv文件并去重 df = pd.read_csv('data.csv') df.drop_duplicates(inplace=True) # 连接MySQL数据库 engine = create_engine('mysql+pymysql://username:password@host:port/database') # 将数据写入MySQL数据库中 df.to_sql('table_name', engine, if_exists='append', index=False, chunksize=10000) ``` 其中，`username`和`password`分别为MySQL数据库的用户名和密码，`host`和`port`为MySQL服务器的地址和端口号，`database`为要写入数据的数据库名称，`table_name`为要写入数据的表名。在将数据写入MySQL数据库时，`if_exists='append'`参数表示如果数据表已存在，则将数据追加到现有表中，`index=False`参数表示不将数据框索引列写入数据库，`chunksize=10000`参数表示每次写入10000条数据。另外，可以根据需要修改这些参数。

阅读全文

pandas读取csv文件并在写入mysql数据库时与数据库去重distinct

相关推荐

将csv文件读取到datable中并插入到mysql数据库中

pandas读取csv文件并在写入mysql数据库时与数据库去重

pandas读取csv文件链接数据库并在写入数据库时与数据库信息去重

利用pandas读取csv文件，并保存到mysql数据库

数据处理pandas读取csv文件

基于Pandas读取csv文件Error的总结

使用pandas读取csv文件的指定列方法

使用实现pandas读取csv文件指定的前几行

pandas读取CSV文件时查看修改各列的数据类型格式

pandas读取csv写入mysql

iris.csv文件：4个特征数据，1个标签数据（0，1，2表示）。 使用pandas读取iris.csv文件，然后作为一个数据库表"iristab"写入MySQL数据库"studentdb"中。 从MySQL数据库studentdb中读出iris数据，把保存为一个Excel文件。

pandas读取csv文件,分隔符参数sep的实例

教师节主题班会.pptx

学生网络安全教育主题班会.pptx

世界环境日主题班会.pptx

GNSS 经纬度 所有国家的电子围栏

JEEWEB Mybatis版本是一款基于SpringMVC+Spring+Mybatis+Mybatis Plus的JAVA WEB敏捷开发系统.zip

20190313-092954-旋转磁体产生的场对原子钟频率的影响

最新推荐

pandas读取csv文件提示不存在的解决方法及原因分析

Python之csv文件从MySQL数据库导入导出的方法

Pandas读取csv时如何设置列名

pandas读取csv文件,分隔符参数sep的实例

利用pandas向一个csv文件追加写入数据的实现示例

正整数数组验证库：确保值符合正整数规则

管理建模和仿真的文件

【损失函数与随机梯度下降】：探索学习率对损失函数的影响，实现高效模型训练

在ADS软件中，如何选择并优化低噪声放大器的直流工作点以实现最佳性能？

系统移植工具集：镜像、工具链及其他必备软件包

iris.csv文件：4个特征数据，1个标签数据（0，1，2表示）。使用pandas读取iris.csv文件，然后作为一个数据库表"iristab"写入MySQL数据库"studentdb"中。从MySQL数据库studentdb中读出iris数据，把保存为一个Excel文件。

GNSS 经纬度所有国家的电子围栏