import pandas as pd filepath1='E:\\《python与数据科学》考核方式和考核说明\\银行营销数据_训练集和测试集.xlsx' data1=pd.read_excel(filepath1,sheet_name=0) data1['考试学号']=data1['考试学号'].astype("str") print(data1[data1['考试学号']==2020051507220])

时间: 2024-03-19 19:42:48 浏览: 101

Pandas速查卡-Python数据科学

Pandas是Python中用于数据处理和分析的重要库，尤其在数据科学领域中扮演着核心角色。它的核心数据结构是DataFrame，一种二维标签化数据结构，此外还包括Series，即一维的标签化数组。在Pandas速查卡中，提供了从数据导入到输出的全过程操作指南，涵盖了数据查看、选择与清洗，以及排序、筛选、分组，数据表的合并等核心知识点。一、数据导入导出 Pandas支持多种格式数据的导入和导出，包括CSV、Excel、SQL、JSON、HTML等。具体操作包括： - 使用pd.read_csv()来导入CSV文件； - 使用pd.read_table()导入分隔的文本文件，如TSV； - 使用pd.read_excel()来导入Excel文件； - 使用pd.read_sql()和pd.read_sql_query()读取SQL表或数据库； - 使用pd.read_json()读取JSON格式数据； - 使用pd.read_html()读取HTML网页中的表格； - 使用pd.read_clipboard()从剪贴板中获取内容导入； - 使用pd.DataFrame()从字典等数据结构创建DataFrame对象； - 使用df.to_sql()将DataFrame写入SQL表； - 使用df.to_json()和df.to_csv()、df.to_excel()等方法将DataFrame导出为相应的格式文件。二、数据查看与检查 - 使用df.head(n)和df.tail(n)查看DataFrame的前n行或后n行数据； - 使用df.shape查看数据框的行数和列数； - 使用***()获取数据框的索引、数据类型和内存信息； - 使用df.describe()获取数值列的汇总统计信息； - 使用s.value_counts()查看Series的唯一值和计数； - 使用df.apply(pd.Series.value_counts)对DataFrame中所有列的唯一值和计数进行检查。三、数据选择 Pandas提供了灵活的数据选择机制，包括按位置、索引和条件筛选等。 - 使用df[col]选择列； - 使用df[[col1, col2]]选择多列； - 使用s.iloc[0]通过位置选择Series中的第一个元素； - 使用s.loc['index_one']通过索引选择Series中的一个元素； - 使用df.iloc[0, :]选择DataFrame的第一行； - 使用df.iloc[0, 0]选择DataFrame的第一行第一列的第一个元素。四、数据清洗 - 使用pd.isnull()和pd.notnull()检查空值，返回逻辑数组； - 使用df.dropna()删除包含空值的所有行； - 使用df.dropna(axis=1)删除包含空值的所有列； - 使用df.fillna(x)或s.fillna(s.mean())替换所有空值； - 使用s.astype(float)将数组的数据类型转换为float； - 使用df.replace(1, 'one')将所有等于1的值替换为'one'； - 使用df.columns = ['a', 'b', 'c']重命名列。五、数据排序、筛选与分组 - 使用.sort_values(by=列名)对DataFrame进行排序； - 使用条件筛选，例如df[df['列名'] > 值]筛选满足条件的数据； - 使用df.groupby('列名')对数据进行分组操作。六、数据统计 - 使用df.sum()、df.mean()、df.std()等进行基本的统计计算； - 使用df.corr()计算相关系数矩阵； - 使用df.describe()进行描述性统计分析。由于Pandas的便利性和效率，它成为了数据科学领域中不可或缺的工具。该速查卡提供了快速入门Pandas的操作指令和方法，为初学者提供了一个实用的学习资源。如果需要更深入学习Pandas，可以参考Dataquest提供的教程和互动平台，那里有更多的实战案例和指导。

你的代码是正确的，它可以读取Excel表格中的数据，并筛选出'考试学号'列等于2020051507220的行。在这段代码中，我们使用了pandas库中的read_excel()函数读取了Excel文件的第一个sheet（sheet_name=0），然后使用astype()函数将'考试学号'列转换为字符串类型，最后使用布尔索引(data1['考试学号']==2020051507220)筛选出符合条件的行。需要注意的是，当读取Excel表格中的数据时，需要确保文件路径是正确的，并且需要使用双斜杠（"\\")或单斜杠（"/")来表示文件路径中的目录分隔符。如果'考试学号'列中的数据类型不是字符串类型，筛选操作可能会出现问题。

阅读全文

import pandas as pd filepath1='E:\\《python与数据科学》考核方式和考核说明\\银行营销数据_训练集和测试集.xlsx' data1=pd.read_excel(filepath1,sheet_name=0) data1['考试学号']=data1['考试学号'].astype("str") print(data1[data1['考试学号']==2020051507220])

相关推荐

Pandas数据集练习：掌握Python数据分析精髓

Python数据分析：深入理解Pandas Series与DataFrame

import time import pandas as pd import requests import re import os import streamlit as st from datetime import datetime from aip import AipImageClassify def get_file(filepath): with open(filepath, 'rb') as f: return f.read() 解释代码

Python数据科学入门：Pandas与Numpy操作详解

最新推荐

【java毕业设计】网页时装购物系统源码（springboot+vue+mysql+说明文档+LW）.zip

Kylin10 + GDAL2.4 + OSG3.6.4 + OsgEarth2.10.1

计算机系统维护技术.xps

数学建模问题中阻滞增长模型

Angular实现MarcHayek简历展示应用教程

管理建模和仿真的文件

深入剖析：内存溢出背后的原因、预防及应急策略（专家版）

Java中如何对年月日时分秒的日期字符串作如下处理：如何日期分钟介于两个相连的半点之间，就将分钟数调整为前半点

Crossbow Spot最新更新 - 获取Chrome扩展新闻

"互动学习：行动中的多样性与论文攻读经历"