total = data_before.isnull().sum().sort_values(ascending=False)
时间: 2024-05-19 20:13:49 浏览: 112
This line of code calculates the total number of missing values in each column of the DataFrame 'data_before' by first checking which values are null using the isnull() function, then summing them up using the sum() function. The resulting counts are then sorted in descending order using the sort_values() function and stored in the 'total' variable.
相关问题
import numpy as np import pandas as pd import visuals as vs import seaborn as sns %matplotlib inline data = pd.read_csv('bj_housing.csv') print(data) missing = data.isnull().sum() print(missing) missing.sort_values(inplace=True,ascending=False) missing = missing[missing > 0] types = data[missing.index].dtypes percent = (data[missing.index].isnull().sum()/data[missing.index].isnull().count()).sort_values(ascending=False) missing_data = pd.concat([missing, percent,types], axis=1, keys=['Total', 'Percent','Types']) missing_data.sort_values('Total',ascending=False,inplace=True) missing_data
这段代码是用于读取北京房价数据集,并对数据集中的缺失值进行处理。
首先,使用pandas库中的read_csv()函数读取名为'bj_housing.csv'的数据集,并将读取的数据存储在名为data的DataFrame中。
然后,使用isnull()函数判断data中每个元素是否为缺失值,将结果存储在名为missing的Series中。接着,将missing中的元素按照从大到小的顺序排列,并将缺失值个数大于0的元素存储在missing中。
接下来,使用dtypes属性获取missing中每个缺失值所在列的数据类型,并将结果存储在名为types的Series中。接着,使用isnull()和sum()函数统计每一列缺失值的个数,并除以该列元素总数得到该列缺失值的比例,并将结果按照从大到小的顺序排列,存储在名为percent的Series中。
最后,使用concat()函数将missing、percent和types按照列方向拼接起来,形成一个新的DataFrame,存储在名为missing_data中,并将结果按照缺失值的个数从大到小排列。
##连接list words=np.concatenate(Red_df.cutword) ##统计词频 word_df= pd.DataFrame({"Word":words}) word_stat=word_df.groupby(by=["Word"]).size().reset_index(name="number") word_stat=word_stat.reset_index().sort_values(by="number",ascending=False) word_stat["wordlen"]=word_stat.Word.apply(len) word_stat #去除长度大于5的词 print(np.where(word_stat.Word.apply(len)<5)) word_stat=word_stat.loc[word_stat.Word.apply(len)<5,:] word_stat=word_stat.sort_values(by="number",ascending=False) word_stat
这段代码看起来像是在对一个列表中的词进行词频统计,并且筛选出长度小于5的词。具体的操作包括:
1. 将一个名为`words`的列表中的所有词进行连接,得到一个大字符串。
2. 将这个大字符串转换为一个DataFrame对象,其中每个词作为一行。
3. 对这个DataFrame按照词进行分组,并统计每个词出现的次数。
4. 添加一列`wordlen`,表示每个词的长度。
5. 筛选出长度小于5的词,并按照出现次数进行降序排序。
请注意,这段代码并没有输出任何结果,只是对数据进行了处理。如果需要查看结果,需要在代码末尾添加输出语句。
阅读全文