import pandas as pd data = pd.read_csv(r'D:\Workspace\Code\CodeForDataWarehouse_Pycharm\Market_Basket_Optimisation.csv', header=None, names=['商品名', '购买数量']) df = pd.DataFrame(data, columns=['商品名']) result = df.groupby('商品名').size().reset_index(name='数量') result.to_csv(r'D:\Workspace\Code\CodeForDataWarehouse_Pycharm\sh2_purchase_summary.csv', index=False) 预期结果为：商品名,数量 milk,3 yogurt,3 eggs,4 soup,2 turkey,4 tomatto,3 cookies,2 apples,2；实际结果为：商品名,数量 cookies,1。输出结果与预期不符，请帮我找出问题

时间: 2023-05-30 17:06:44 浏览: 212

pandas.read_csv参数详解(小结)

### pandas.read_csv 参数详解 `pandas.read_csv` 是 Pandas 库中一个非常重要的函数，主要用于从 CSV 文件中读取数据并将其转换为 DataFrame 对象。以下是对该函数各个参数的详细介绍： #### filepath_or_buffer - **描述**：指定要读取的 CSV 文件路径或缓冲区对象。 - **类型**：可以是字符串、`pathlib.Path`、`py._path.local.LocalPath` 或任何具有 `read()` 方法的对象（如文件句柄或 `StringIO` 对象）。 - **支持的 URL 类型**：包括 `http`、`ftp`、`s3` 和本地文件路径。 - **示例**： - 本地文件路径：`"C:\\local\\path\\to\\table.csv"` - HTTP 地址：`"http://example.com/data.csv"` #### sep - **描述**：指定 CSV 文件中数据项之间的分隔符，默认为逗号。 - **类型**：字符串。 - **默认值**：`,`。 - **特殊处理**：如果分隔符长度超过一个字符且不是 `\s+`，将使用 Python 的正则表达式解析器进行解析，并忽略数据中的逗号。 - **示例**：`'\t'` 表示使用制表符作为分隔符。 #### delimiter - **描述**：提供了一个备选的分隔符选项，与 `sep` 相互排斥，即如果设置了 `delimiter`，则 `sep` 将被忽略。 - **类型**：字符串。 - **默认值**：`None`。 - **示例**：`';'` #### delim_whitespace - **描述**：指定是否使用空白字符（如空格或制表符）作为分隔符。 - **类型**：布尔值。 - **默认值**：`False`。 - **等效设置**：若设为 `True`，则等同于设置 `sep='\s+'`。 - **版本支持**：自 Pandas 0.18.1 版本起支持。 #### header - **描述**：指定哪些行应被用作列名。 - **类型**：整数或整数列表。 - **默认值**：`'infer'`，自动检测 CSV 文件中是否存在表头行。 - **示例**： - `0`：表示第一行作为列名。 - `None`：表示无表头行。 - `[0, 1]`：表示第 1 行和第 2 行作为多级列名。 #### names - **描述**：当 CSV 文件中没有显式定义列名时，可以使用此参数指定列名列表。 - **类型**：数组样式的对象。 - **默认值**：`None`。 - **示例**：`['name', 'age', 'gender']` - **注意事项**：如果 `header` 已经指定了列名，则 `names` 将被忽略。 #### index_col - **描述**：指定哪些列应被用作行索引。 - **类型**：整数、字符串或整数/字符串列表。 - **默认值**：`None`。 - **示例**：`0` 表示使用第一列作为索引列。 - **特殊情况**：如果设置为 `False`，则不会使用任何列作为索引。 #### usecols - **描述**：仅读取 CSV 文件中的某些列。 - **类型**：数组样式的对象。 - **默认值**：`None`。 - **示例**：`[0, 2, 3]` 表示只读取第 1、3、4 列；`['name', 'age']` 表示只读取名为 `name` 和 `age` 的列。 - **优点**：可以减少内存占用和提高读取速度。 #### as_recarray - **描述**：已废弃，未来版本将移除。 - **类型**：布尔值。 - **默认值**：`False`。 - **替代方案**：建议使用 `pd.read_csv().to_records()`。 #### squeeze - **描述**：如果 CSV 文件仅包含一列，则返回 Series 而不是 DataFrame。 - **类型**：布尔值。 - **默认值**：`False`。 #### prefix - **描述**：当 `header=None` 时，为列添加前缀。 - **类型**：字符串。 - **默认值**：`None`。 - **示例**：设置为 `'X'` 后，列名变为 `X0`, `X1`, `X2` 等。 #### mangle_dupe_cols - **描述**：决定如何处理重复的列名。 - **类型**：布尔值。 - **默认值**：`True`。 - **示例**：若设为 `True`，则重复的列名会被重命名为 `X.0`, `X.1` 等。 #### dtype - **描述**：指定各列的数据类型。 - **类型**：数据类型名称或列名到数据类型的映射字典。 - **默认值**：`None`。 - **示例**：`{'name': str, 'age': int}`。 #### engine - **描述**：指定使用的解析引擎。 - **类型**：字符串。 - **可选值**：`'c'` 或 `'python'`。 - **默认值**：通常为 `'c'`。 - **性能差异**：C 引擎通常更快，但 Python 引擎可能更灵活。 ### 总结通过上述介绍可以看出，`pandas.read_csv` 函数提供了丰富的参数配置选项，能够满足用户在不同场景下的需求。理解这些参数的具体含义及其用法，可以帮助我们更高效地读取和处理 CSV 文件。希望本文的详细介绍对你在实际工作中有所帮助！

在读取数据时，只指定了两列（'商品名'和'购买数量'），并没有指定第一行为列名，所以需要加上参数header=None。而在给列名赋值时，只赋值了'商品名'一列，没有赋值'购买数量'一列，所以在分组统计时会出现问题。正确的代码应该是： ``` import pandas as pd data = pd.read_csv(r'D:\Workspace\Code\CodeForDataWarehouse_Pycharm\Market_Basket_Optimisation.csv', header=None, names=['商品名', '购买数量']) result = data.groupby('商品名').size().reset_index(name='数量') result.to_csv(r'D:\Workspace\Code\CodeForDataWarehouse_Pycharm\sh2_purchase_summary.csv', index=False) ``` 这样就可以得到正确的结果了。

阅读全文

相关推荐

pandas.read_csv参数全面解析：高效CSV导入与头信息处理

pandas库pd.read_excel操作详解：参数整理与实例教程

检查下面的代码：import pandas as pd data = pd.read_csv("F:/data/pNEUMA/20181024_dX_0900_0930.csv", split=";", header=None, skiprows=1) print(data)

import pandas as pd data = pd.read_csv("data1.csv",header=None) print(data)解释这行代码

优化以下代码使其提取csv文件中有小数点的行import numpy as np import pandas as pd data = pd.read_csv(r'C:\Users\Admin\Desktop\bisaifiles\population.csv',header=None) data decimal_data = df[df.dtypes == float] print(decimal_data.index.tolist())

import pandas as pd df = pd.read_csv('property-data.csv') new_df = df.dropna() print(new_df.to_st...

import numpy as np import matplotlib.pyplot as plt import pandas as pd dataset = pd.read_csv('E:\Program Files (x86)\Apriori-Association-Rules-main\Market_Basket_Optimisation.csv', header = None) print(dataset)运行后，可视化显示各类商品的累计购买量应该如何写代码

import pandas as pd salaries = pd.read_csv('data/salaries.csv', index_col=0)

import pandas as pd df = pd.read_csv('C:\\Users\haoyun\Desktop\附件1 历史温度.csv') print(df)这个代码有什么问题

解释这段代码import pandas as pd import numpy as np data = pd.read_csv(r'D:\桌面\train.csv') data

import pandas as pd df = pd.read_csv('property-data.csv') new_df = df.dropna() print(new_df.to_string())这段代码什么意思

import pandas as pd data = pd.read_csv('C:\\Users\\15497\\Desktop\\detail.csv')

import pandas as pd , data=pd.read_csv()

import pandas as pd pd=pd.read_csv('PCA_labels.csv') pd pd_vali=pd.read_csv('PCA_validation.csv') pd_vali有什么问题

import pandas as pd data = pd.read_csv('D:/数字汽车大赛/2023年数字汽车大赛创新组赛题二数据/LB9LC30F0KALA6565.csv')

import pandas as pd data =pd.read_csv('C:\Users\86131\Documents\Tencent Files\1956540473\FileRecv\train.csv') data.head()

最新推荐

python中时间转换datetime和pd.to_datetime详析

基于微信小程序的校园论坛；微信小程序；云开发；云数据库；云储存；云函数；纯JS无后台；全部资料+详细文档+高分项目.zip

GitHub图片浏览插件：直观展示代码中的图像

管理建模和仿真的文件

【OPPO手机故障诊断专家】：工程指令快速定位与解决

求[100，900]之间相差为12的素数对（注：要求素数对的两个素数均在该范围内）的个数

Android IPTV项目：直播频道的实时流媒体实现

"互动学习：行动中的多样性与论文攻读经历"

【OPPO手机工程模式终极指南】：掌握这些秘籍，故障排查不再难！

前端在json文件里写模板，可以换行 有空格现在在文本框的时候

前端在json文件里写模板，可以换行有空格现在在文本框的时候