数据科学入门：Pandas数据分析详解

需积分: 38 112 浏览量更新于2024-07-15 收藏 14.6MB PDF 举报

“数据科学-Pandas数据分析讲义.pdf” 本文档涵盖了数据科学的基础知识，特别强调了Pandas在数据分析中的应用。数据科学是一门综合学科，融合了计算机科学、统计学、数学和软件工程等多个领域的知识，其核心目标是从数据中提取洞察并转化为实际行动。随着大数据时代的到来，数据科学的重要性日益凸显，因为它能帮助企业从海量数据中找到关键信息，从而做出明智的决策。在数据科学中，"数据科学"这一术语起源于20世纪60年代至80年代的计算机科学文献，但在90年代后期才在统计和数据挖掘领域广泛使用。2001年，数据科学正式成为一门独立的学科，它包括描述、发现、预测和建议四个阶段，旨在通过数据产品提供洞见和解决方案。数据产品可以应用于各个行业，如广告策略、票房预测和客户定位等。数据分析是数据科学中的关键部分，它涉及对特定数据集的深入研究以获得见解。与此同时，数据工程则专注于利用工具和技术将原始数据转化为具有商业价值的形式。业务数据化就是将业务流程转化为可量化的数据，通过分析这些数据来优化业务操作。举例来说，搜索引擎就是一个典型的数据科学应用案例。它收集用户行为数据，如搜索关键词、页面停留时间和点击率，然后利用这些信息优化搜索结果，提高用户体验，形成一个数据驱动的反馈循环，持续改进服务。数据科学的工作流程通常包括以下几个步骤： 1. 定义问题：明确需要解决的具体问题或目标。 2. 获取数据：收集相关的训练和测试数据，这些数据可以来自多个来源。 3. 数据预处理：清洗数据，处理缺失值和异常值，转换数据格式等。 4. 探索性数据分析（EDA）：通过可视化和统计分析理解数据的分布和特征。 5. 建立模型：选择合适的算法构建预测或分类模型。 6. 训练和验证：使用训练数据训练模型，并用测试数据评估模型性能。 7. 模型部署：将训练好的模型应用到实际问题中，提供决策支持。 8. 持续监控和优化：跟踪模型表现，根据新数据调整和改进模型。在Python中，Pandas库是进行数据分析的重要工具，它提供了高效的数据结构（如DataFrame）和数据操作方法，使得数据清洗、转换和分析变得更为便捷。通过Pandas，数据科学家能够轻松地执行数据合并、筛选、聚合等操作，为后续的建模工作打下坚实基础。数据科学是现代商业决策的关键驱动力，而Pandas作为数据分析的利器，为数据科学家提供了强大的数据处理能力，助力企业从数据中挖掘出宝贵的价值。

输出结果

使用 iloc 获取数据中的1列/几列

df.iloc[:,[列序号]] # 列序号可以使用-1代表最后一列

输出结果

如果loc 和 iloc 传入的参数弄混了，会报错

loc 只能接受行/列的名字，不能传入索引

输出结果

iloc只能接受行/列的索引，不能传入行名，或者列名

输出结果

通过range 生成序号，结合iloc 获取连续多列数据

输出结果

subset = df.loc[:,['year','pop']]

print(subset.head())

year    pop

0 1952  8425333

1 1957  9240934

2 1962 10267083

3 1967 11537966

4 1972 13079460

subset = df.iloc[:,[2,4,-1]]

print(subset.head())

year    pop  gdpPercap

0 1952  8425333 779.445314

1 1957  9240934 820.853030

2 1962 10267083 853.100710

3 1967 11537966 836.197138

4 1972 13079460 739.981106

subset = df.loc[:,[2,4,-1]]

print(subset.head())

KeyError: "None of [Int64Index([2, 4, -1], dtype='int64')] are in the [columns]"

subset = df.loc[:,[2,4,-1]]

print(subset.head())

IndexError: .iloc requires numeric indexers, got ['year' 'pop']

tmp_range = list(range(5))

print(tmp_range)

[0, 1, 2, 3, 4]

subset = df.iloc[:,tmp_range]

print(subset.head())

country continent year lifeExp    pop

0 Afghanistan   Asia 1952  28.801  8425333

1 Afghanistan   Asia 1957  30.332  9240934

2 Afghanistan   Asia 1962  31.997 10267083

3 Afghanistan   Asia 1967  34.020 11537966

4 Afghanistan   Asia 1972  36.088 13079460

tmp_range = list(range(3,5))

print(tmp_range)

[3, 4]

subset = df.iloc[:,tmp_range]

print(subset.head())

黑马程序员Python

增加代码的可读性

避免因列顺序的变化导致取出错误的列数据

输出结果

注意：可以在loc 和 iloc 属性的行部分使用切片获取数据

输出结果

4 分组和聚合计算

在我们使用Excel或者SQL进行数据处理时，Excel和SQL都提供了基本的统计计算功能

当我们再次查看gapminder数据的时候，可以根据数据提出几个问题

输出结果

① 每一年的平均预期寿命是多少？每一年的平均人口和平均GDP是多少？

② 如果我们按照大洲来计算，每年个大洲的平均预期寿命，平均人口，平均GDP情况又如何？

③ 在数据中，每个大洲列出了多少个国家和地区？

4.1 分组方式

对于上面提出的问题，需要进行分组-聚合计算

先将数据分组（每一年的平均预期寿命问题按照年份将相同年份的数据分成一组）

对每组的数据再去进行统计计算如，求平均，求每组数据条目数（频数）等

再将每一组计算的结果合并起来

可以使用DataFrame的groupby方法完成分组/聚合计算

显示结果

我们将上面一行代码拆开，逐步分析

通过df.groupby('year')先创一个分组对象，如果打印这个分组的DataFrame，会返回一个内存地址

print(df.loc[[0,99,999],['country','lifeExp','gdpPercap']])

 country lifeExp  gdpPercap

0  Afghanistan  28.801  779.445314

99  Bangladesh  43.453  721.186086

999   Mongolia  51.253 1226.041130

print(df.loc[2:6,['country','lifeExp','gdpPercap']])

country lifeExp  gdpPercap

2 Afghanistan  31.997 853.100710

3 Afghanistan  34.020 836.197138

4 Afghanistan  36.088 739.981106

5 Afghanistan  38.438 786.113360

6 Afghanistan  39.854 978.011439

print(df.head(10))

 country continent year lifeExp    pop  gdpPercap

0 Afghanistan   Asia 1952  28.801  8425333 779.445314

1 Afghanistan   Asia 1957  30.332  9240934 820.853030

2 Afghanistan   Asia 1962  31.997 10267083 853.100710

3 Afghanistan   Asia 1967  34.020 11537966 836.197138

4 Afghanistan   Asia 1972  36.088 13079460 739.981106

5 Afghanistan   Asia 1977  38.438 14880372 786.113360

6 Afghanistan   Asia 1982  39.854 12881816 978.011439

7 Afghanistan   Asia 1987  40.822 13867957 852.395945

8 Afghanistan   Asia 1992  41.674 16317921 649.341395

9 Afghanistan   Asia 1997  41.763 22227415 635.341351

print(df.groupby('year')['lifeExp'].mean())

year

1952  49.057620

1957  51.507401

1962  53.609249

1967  55.678290

1972  57.647386

1977  59.570157

1982  61.533197

1987  63.212613

1992  64.160338

1997  65.014676

2002  65.694923

2007  67.007423

Name: lifeExp, dtype: float64

黑马程序员Python

显示结果

我们可以从分组之后的数据DataFrameGroupBy中，传入列名获取我们感兴趣的数据，并进行进一步计算

计算每一年的平均预期寿命，我们需要用到 lifeExp 这一列

我们可以使用上一小节介绍的方法获取分组之后数据中的一列

显示结果

返回结果为一个 SeriesGroupBy （只获取了DataFrameGroupBy中的一列），其内容是分组后的数据

对分组后的数据计算平均值

显示结果

上面的例子只是对一列 lifeExp 进行了分组求平均，如果想对多列值进行分组聚合代码也类似

显示结果

grouped_year_df = df.groupby('year')

print(type(grouped_year_df))

print(grouped_year_df)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x123493f10>

grouped_year_df_lifeExp = grouped_year_df['lifeExp']

print(type(grouped_year_df_lifeExp))

print(grouped_year_df_lifeExp)

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001E1938D0710>

mean_lifeExp_by_year = grouped_year_df_lifeExp.mean()

print(mean_lifeExp_by_year)

year

1952  49.057620

1957  51.507401

1962  53.609249

1967  55.678290

1972  57.647386

1977  59.570157

1982  61.533197

1987  63.212613

1992  64.160338

1997  65.014676

2002  65.694923

2007  67.007423

Name: lifeExp, dtype: float64

print(df.groupby(['year', 'continent'])[['lifeExp','gdpPercap']].mean())

      lifeExp   gdpPercap

year continent            

1952 Africa   39.135500  1252.572466

Americas  53.279840  4079.062552

Asia    46.314394  5195.484004

Europe   64.408500  5661.057435

Oceania  69.255000 10298.085650

1957 Africa   41.266346  1385.236062

Americas  55.960280  4616.043733

Asia    49.318544  5787.732940

Europe   66.703067  6963.012816

Oceania  70.295000 11598.522455

1962 Africa   43.319442  1598.078825

Americas  58.398760  4901.541870

Asia    51.563223  5729.369625

Europe   68.539233  8365.486814

Oceania  71.085000 12696.452430

1967 Africa   45.334538  2050.363801

Americas  60.410920  5668.253496

Asia    54.663640  5971.173374

Europe   69.737600 10143.823757

Oceania  71.310000 14495.021790

1972 Africa   47.450942  2339.615674

Americas  62.394920  6491.334139

Asia    57.319269  8187.468699

Europe   70.775033 12479.575246

Oceania  71.910000 16417.333380

1977 Africa   49.580423  2585.938508

Americas  64.391560  7352.007126

Asia    59.610556  7791.314020

Europe   71.937767 14283.979110

黑马程序员Python

上面的代码按年份和大洲对数据进行分组，针对每一组数据计算了对应的平均预期寿命 lifeExp 和平均GDP

输出的结果中 year continent 和 lifeExp gdpPercap 不在同一行， year continent两个行索引存在层级结构，后面的章节会详细

介绍这种复合索引的用法

如果想去掉 year continent的层级结构，可以使用reset_index方法（重置行索引）

显示结果

4.2 分组频数计算

在数据分析中，一个常见的任务是计算频数

可以使用 nunique 方法计算Pandas Series的唯一值计数

可以使用 value_counts 方法来获取Pandas Series 的频数统计

在数据中，每个大洲列出了多少个国家和地区？

显示结果

5 基本绘图

可视化在数据分析的每个步骤中都非常重要，在理解或清理数据时，可视化有助于识别数据中的趋势

Oceania  72.855000 17283.957605

1982 Africa   51.592865  2481.592960

Americas  66.228840  7506.737088

Asia    62.617939  7434.135157

Europe   72.806400 15617.896551

Oceania  74.290000 18554.709840

1987 Africa   53.344788  2282.668991

Americas  68.090720  7793.400261

Asia    64.851182  7608.226508

Europe   73.642167 17214.310727

Oceania  75.320000 20448.040160

1992 Africa   53.629577  2281.810333

Americas  69.568360  8044.934406

Asia    66.537212  8639.690248

Europe   74.440100 17061.568084

Oceania  76.945000 20894.045885

1997 Africa   53.598269  2378.759555

Americas  71.150480  8889.300863

Asia    68.020515  9834.093295

Europe   75.505167 19076.781802

Oceania  78.190000 24024.175170

2002 Africa   53.325231  2599.385159

Americas  72.422040  9287.677107

Asia    69.233879 10174.090397

Europe   76.700600 21711.732422

Oceania  79.740000 26938.778040

2007 Africa   54.806038  3089.032605

Americas  73.608120 11003.031625

Asia    70.728485 12473.026870

Europe   77.648600 25054.481636

Oceania  80.719500 29810.188275

multi_group_var = df.groupby(['year', 'continent'])[['lifeExp','gdpPercap']].mean()

flat = multi_group_var.reset_index()

print(flat.head(15))

year continent  lifeExp   gdpPercap

0  1952  Africa 39.135500  1252.572466

1  1952 Americas 53.279840  4079.062552

2  1952   Asia 46.314394  5195.484004

3  1952  Europe 64.408500  5661.057435

4  1952  Oceania 69.255000 10298.085650

5  1957  Africa 41.266346  1385.236062

6  1957 Americas 55.960280  4616.043733

7  1957   Asia 49.318544  5787.732940

8  1957  Europe 66.703067  6963.012816

9  1957  Oceania 70.295000 11598.522455

10 1962  Africa 43.319442  1598.078825

11 1962 Americas 58.398760  4901.541870

12 1962   Asia 51.563223  5729.369625

13 1962  Europe 68.539233  8365.486814

14 1962  Oceania 71.085000 12696.452430

df.groupby('continent')['country'].nunique()

continent

Africa   52

Americas  25

Asia    33

Europe   30

Oceania   2

Name: country, dtype: int64

黑马程序员Python

剩余188页未读，继续阅读

RStanwen

粉丝: 8273
资源: 7

数据科学入门：Pandas数据分析详解

python数据分析pandas快速入门教程.pdf

《Python数据分析与应用》教学课件04pandas数据处理.pdf

Python数据分析（Pandas Numpy等）

Python库 | moodle-dl-2.2.0.7.tar.gz

Python量化金融-Python金融实务应用与数据分析课程 量化金融基础课 -量化因子 共31页.pdf

叶明直播课程2020-3-3最终版.rar

《python可以这样学》讲义.pdf

2019年第02期Python系列课程讲义.pdf

《数据竞赛入门讲义》.pdf

python精品课程讲义.rar

最新资源

Python量化金融-Python金融实务应用与数据分析课程量化金融基础课 -量化因子共31页.pdf