Python之之Pandas知识点知识点
很多人都分不清Numpy,Scipy,pandas三个库的区别。
在这里简单分别一下:
NumPy:数学计算库,以矩阵为基础的数学计算模块,包括基本的四则运行,方程式以及其他方面的计算什么的,纯数学;
SciPy :科学计算库,有一些高阶抽象和物理模型,在NumPy基础上,封装了一层,没有那么纯数学,提供方法直接计算结
果;
比如:
做个傅立叶变换,这是纯数学的,用Numpy;
做个滤波器,这属于信号处理模型了,用Scipy。
Pandas:提供名为DataFrame的数据结构,比较契合统计分析中的表结构,做数据分析用的,主要是做表格数据呈现。
目前来说,随着Pandas更新,Numpy大部分功能已经直接和Pandas融合了。
但如果你不是纯数学专业,而且想做数据分析的话,尝试着从 Pandas 入手比较好。
接下来讲Pandas。
1数据结构
Series:一维数组,与Numpy中的一维array类似。
Time- Series:以时间为索引的Series。
DataFrame:二维的表格型数据结构。可以将DataFrame理解为Series的容器。
Panel :三维的数组,可以理解为DataFrame的容器。
# 导入别名
import pandas as pd
pd.Series([1,2,3,4])
2数据读取
2.1 csv文件读取
read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer',
names=None, index_col=None, usecols=None, squeeze=False,
prefix=None, mangle_dupe_cols=True, dtype=None, engine=None,
converters=None, true_values=None, false_values=None,
skipinitialspace=False, skiprows=None, nrows=None, na_values=None,
keep_default_na=True, na_filter=True, verbose=False,
skip_blank_lines=True, parse_dates=False,
infer_datetime_format=False, keep_date_col=False, date_parser=None,
dayfirst=False, iterator=False, chunksize=None, compression='infer',
thousands=None, decimal=b'.', lineterminator=None, quotechar='"',
quoting=0, escapechar=None, comment=None, encoding=None,
dialect=None, tupleize_cols=False, error_bad_lines=True,
warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True,
delim_whitespace=False, as_recarray=False, compact_ints=False,
use_unsigned=False, low_memory=True, buffer_lines=None,
memory_map=False, float_precision=None)
filepath_or_buffer:文件路径,建议使用相对路径
header: 默认自动识别首行为列名(特征名),在数据没有列名的情况下 header = none, 还可以设置为其他行,例如 header
= 5 表示索引位置为5的行作为起始列名
sep: 表示csv文件的分隔符,默认为','
评论0