"数据分析知识总结：删除、重复和空值处理"

需积分: 9 18 浏览量更新于2024-01-18 收藏 2.16MB DOCX 举报

数据分析是一门应用数学和统计学方法来收集、整理、处理和解释数据的学科。在数据分析过程中，经常需要处理和清洗数据，包括删除行和列、处理重复数据、空值的处理等。本文将对这些常用的数据处理方法进行总结。一、删除行和列在数据分析中，当某行或某列的数据不符合需求或者不需要时，可以使用删除操作来剔除这些数据。 1. 删除行在Python中，使用pandas库中的dropna()方法可以删除含有空值的整行数据。例如： df.dropna() # 删除所有含有空值的行数据如果想要删除整行都是空值的数据，可以添加参数how='all'，表示所有列都是空值时才删除。例如： df.dropna(how='all') # 删除整行都是空值的数据 2. 删除列在pandas库中，可以通过指定axis参数来删除整列数据。axis=1表示删除列数据，axis=0表示删除行数据。例如： df.dropna(axis=1) # 删除所有含有空值的列数据二、重复数据的处理在数据分析中，重复数据的存在可能会影响分析结果的准确性，因此需要进行处理。可以使用pandas库中的duplicated()方法来判断数据是否重复，返回一个布尔型的Series对象，表示每一行数据是否重复。例如： df.duplicated() # 判断数据是否重复可以使用drop_duplicates()方法来删除重复数据。默认情况下，该方法会将所有列的数值完全相同的行视为重复数据，只保留第一次出现的数据。例如： df.drop_duplicates() # 删除重复数据三、空值的处理在数据分析中，常常会遇到数据缺失的情况，需对空值进行处理。 1. 创建空值在pandas库中，可以通过导入numpy库，并使用nan作为NaN的别名来创建空值。例如： from numpy import nan as NaN print(type(NaN)) # <class 'float'> print(NaN) # nan 2. 删除空值在DataFrame类型数据中，可以使用dropna()方法删除含有空值的数据。默认情况下，该方法会删除所有含有空值的整行数据。例如： df.dropna() # 删除所有含有空值的行数据如果想要删除整行都是空值的数据，可以添加参数how='all'。例如： df.dropna(how='all') # 删除整行都是空值的数据如果想要删除整列的空值数据，需要添加axis参数，axis=1表示删除列数据，axis=0表示删除行数据。例如： df.dropna(axis=1) # 删除所有含有空值的列数据以上是对数据分析中常用的数据处理方法进行的总结，包括删除行和列、处理重复数据以及空值的处理。通过使用这些方法，可以清洗和整理数据，提高数据分析的准确性和可信度。数据分析是一个复杂的过程，需要不断学习和掌握各种数据处理技巧，以充分挖掘数据的价值和潜力。

首先判断每个用户的关注者数量是否大于 100，大于则会返回 True，表示该行

被标记为 True，否则被标记为 False。bools 记录了每一行是否符合筛选条件，

是一个 Series 对象，其中的值是 bool 类型。

根据 bools 每行的值来对 df 进行筛选，值为 True，表示对应的行会留下，否

则，则去除。最后打印的 df1 数据就是关注者超过 100 的用户数据。这是

pandas 根据某列的值进行筛选的基本逻辑。

2.bool 的并集

import pandas as pd

df = pd.read_csv('/data/course_data/data_analysis/mouhu_users_2017.csv')

bool1= df['关注者']>300

bool2= df['关注']>100

df2 = df[bool1 & bool2]

df2.head()

逻辑运算符号&并集

四．数据的排序

可以使用 sort_index()、 sort_values() 两个方法对数据进行排序，并且这两个方法

Series 和 DataFrame 都支持。

import pandas as pd

df =

pd.read_excel('/data/course_data/data_analysis/rate.xlsx',index_col='Country

Code')

df.sort_index(inplace=True,ascending=True)

df.head()

read_excel() 中的参数 index_col='Country Code' 作用是在读取文件的时候指定

Country Code 这一列数据为行索引。

inplace=True 参数和我们之前见过的作用一样，用来控制是否直接对原始数据进行修改。

ascending 可以控制排序的顺序，默认值为 True 从小到大排列，当它被设置为 False 的

时候就可以实现倒序排列。

import pandas as pd

df = pd.read_csv('/data/course_data/data_analysis/mouhu_users_2017.csv')

df.sort_values(by='关注者',ascending=False,inplace=True)

剩余28页未读，继续阅读

chris_zkh

粉丝: 0
资源: 1

"数据分析知识总结：删除、重复和空值处理"

数据分析观念学习总结.doc

如何做数据分析总结 如何做好数据分析？具体方面。.docx

数据的分析总结.docx

MATLAB技术基础知识总结.docx

数据分析基础笔记.docx

工作总结之数据结构实习总结.docx

Matlab技术数据挖掘方法总结.docx

初二数据分析初步讲义.docx

大数据分析解决方案.docx

2022全国计算机等级考试二级Access知识总结.docx

最新资源

如何做数据分析总结如何做好数据分析？具体方面。.docx