Python本地高效处理大数据：pandas详解

188 浏览量更新于2024-08-29 收藏 80KB PDF 举报

“使用Python在本地电脑上快速处理数据” 在处理大数据时，虽然云计算提供了强大的计算能力，但成本和数据传输的不便使得本地数据处理仍然是一个重要的选择。Python中的pandas库是一个非常实用的工具，它允许我们在本地计算机上高效地处理大规模数据，即使达到亿级别。pandas的核心数据结构包括Series、DataFrame和Panel。 1. **Series**：Series是一维的数据结构，类似于一维数组，每个元素都有一个唯一的标签（索引）。它能够存储各种类型的数据，如整数、浮点数、字符串甚至是其他对象。Series的操作类似于Python字典，可以通过索引来访问或修改数据。 2. **DataFrame**：DataFrame是pandas的二维表格型数据结构，可以看作是Series的集合，其中包含多个列，每一列有自己的数据类型。DataFrame既有行索引也有列索引，可以方便地进行数据操作，如筛选、排序、统计分析等。DataFrame的构造可以通过二维列表、字典或其他数据源。 3. **Panel**：Panel是三维的数据结构，可以理解为DataFrame的扩展，用于处理多维数据，比如时间序列数据的面板数据。数据的初始化：要创建Series或DataFrame，我们可以使用pandas的构造函数。例如，创建一个Series： ```python s = Series(data=[1, 2, 3], index=['a', 'b', 'c']) ``` 创建一个DataFrame： ```python df = DataFrame( data=[ [1, 2, 3], [4, 5, 6], [7, 8, 9]], index=['i1', 'i2', 'i3'], columns=['c1', 'c2', 'c3']) ``` 或者直接从CSV文件中读取数据： ```python df = pandas.read_csv("volume.csv", header=0) ``` 数据的更新： - 增加列：可以使用`insert()`函数或直接赋值。 - 删除列：可以使用`pop()`函数或`drop()`函数。 - 增加行：不推荐动态增加，因为可能影响性能。 - 删除行：使用`drop()`函数。数据的修改： - 可以通过索引精确修改单个位置的值。数据的合并：当数据分散在多个DataFrame中时，需要合并数据。pandas提供了多种合并方法，如`concat()`、`merge()`和`join()`。`concat()`是最基础的方法，它沿着指定的轴（行或列）连接多个DataFrame。 ```python import pandas as pd df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}) # 合并操作 result = pd.concat([df1, df2], axis=0) # 沿着行方向合并 ``` 此外，pandas还提供了丰富的数据清洗、数据预处理和数据分析功能，如缺失值处理、数据分组、数据透视、统计分析等，使得在本地处理大数据变得高效且便捷。通过熟练掌握pandas，即使在本地电脑上，也能有效地处理和分析大规模数据。

使用使用python在本地电脑上快速处理数据在本地电脑上快速处理数据

大数据一般是在“云”上玩的，但“云”都是要钱的，而且数据上上下下的也比较麻烦。所以，在本地电脑上快速处理数据的技能

还是要的。

pandas

在比赛中学到的一个工具，本地可以在亿级别的数据上进行聚合等操作。内部的数据包括：

• Series：一维数组，每个元素有一个标签

• DataFrame：二维表格，可以看做Series的集合

• Panel：三维数据

数据的初始化数据的初始化

我们可以通过构造函数来初始化，从下面的代码中可以想象得到数据是样子：

from pandas import Series, DataFrame

s = Series(data=[1, 2, 3], index=['a', 'b', 'c'])

df = DataFrame(

data=[

[1, 2, 3],

[4, 5, 6],

[7, 8, 9] ],

index=['i1', 'i2', 'i3'],

columns=['c1', 'c2', 'c3'] )

如果源数据是格式比较好的CSV（或者是自己加工生成的中间数据），可以直接读取：

df = pandas.read_csv(“../volume.csv”, header=0)

数据的更新数据的更新

更新结构

在定义完成之后可以对行、列进行增减（增减数据、修改结构）：

• 增加列： • df.insert(3, ‘new_column’, [4, 7, 10])

• df[‘c4’] = [4, 7, 10]

• 删除列 • df.pop(‘c1’)

• df = df.drop(‘c1’, axis=1)

• 增加行：一般不要动态的增加行，据说新能不高 • df.loc[‘i4’] = [10, 11, 12]

• df.loc[‘i4’] = {‘c1’: 10, ‘c2’: 11, ‘c3’: 12}

• 删除行： • df = df.drop(‘i1’, axis=0)

更新数据更新数据

我们可以精确修改单个位置的值：

• df[‘c1’][‘i1’] = 77

• df.ix[1, 2] = 66

合并数据

数据很多时候分布在不同的DataFrame中，要使用需要将他们进行合并，第一种方式是concat（基础方法）：

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],

'B': ['B0', 'B1', 'B2', 'B3'],

'C': ['C0', 'C1', 'C2', 'C3'],

'D': ['D0', 'D1', 'D2', 'D3']},

index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],

'B': ['B4', 'B5', 'B6', 'B7'],

'C': ['C4', 'C5', 'C6', 'C7'],

'D': ['D4', 'D5', 'D6', 'D7']},

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38690089

粉丝: 5

Python本地高效处理大数据：pandas详解

Python-BatchSaveWechatPicture微信电脑版批量保存微信图片原图

Python自动化操作电脑微信实现发送图片，读取微信聊天记录，自动回复功能 完整代码-带复制工具-带检测ui工具

在Python3中使用asyncio库进行快速数据抓取的教程

Python爬虫实战：抓取电影数据并本地存储

电脑端Python观察数据工具：TOFSense_drive_python-main

使用python在以太网内存储另一台电脑的mdb文件数据到本地数据库

使用python在以太网内存储另一台电脑的csv文件数据到本地数据库

使用python在以太网内不用socket技术存储另一台电脑的csv文件数据到本地数据库

python实现从其他本地电脑中的DB抓取数据

使用python，将保存在电脑中的csv文件的奇数行数据传到本地数据库中，写出代码

最新资源

Python自动化操作电脑微信实现发送图片，读取微信聊天记录，自动回复功能完整代码-带复制工具-带检测ui工具