df = pd.read_csv('music2.csv')
当你执行df = pd.read_csv('music2.csv')
时,你正在使用Python的pandas库中的read_csv
函数来读取一个名为'music2.csv'的CSV文件,并将其存储在一个名为df
的DataFrame对象中。
DataFrame是pandas库中最重要的数据结构之一,它类似于一个二维表格或电子表格,可以存储和处理结构化数据。通过使用read_csv
函数,你可以将CSV文件加载到DataFrame中,以便进行数据分析和处理。
在执行完这行代码后,你可以使用df
来访问和操作这个DataFrame对象中的数据。你可以使用df.head()
来查看前几行数据,使用df.shape
来获取DataFrame的形状(行数和列数),使用df.columns
来获取列名等等。
import pandas as pd import numpy as np df=pd.read_csv('music_message.csv',sep=',',encoding='gbk') df帮忙做一下数据清洗
好的,下面是一些常见的数据清洗操作,你可以根据自己的需求进行选择和修改:
- 删除重复值:
df.drop_duplicates(inplace=True)
- 缺失值处理:
- 删除缺失值:
df.dropna(inplace=True)
- 填充缺失值:
df.fillna(value, inplace=True)
- 插值填充缺失值:
df.interpolate(inplace=True)
- 异常值处理:
- 删除异常值:
df = df[(df['column'] >= lower) & (df['column'] <= upper)]
- 替换异常值:
df.loc[df['column'] > upper, 'column'] = upper
df.loc[df['column'] < lower, 'column'] = lower
- 字符串清洗:
- 删除空格:
df['column'] = df['column'].str.strip()
- 转换为小写:
df['column'] = df['column'].str.lower()
- 数据类型转换:
df['column'] = df['column'].astype('int')
这些是常见的数据清洗操作,你可以根据实际情况进行选择和修改。
import numpy as np import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('music_message_4.csv', header=None) # 对收藏数取对数 dom = [] for i in df[3]: dom.append(np.log(int(i.replace('万', '0000')))) df['collection'] = dom # 设置图片显示属性,字体及大小 plt.rcParams['font.sans-serif'] = ['STXihei'] plt.rcParams['font.size'] = 12 plt.rcParams['axes.unicode_minus'] = False # 设置图片显示属性 fig = plt.figure(figsize=(16, 8), dpi=80) ax = plt.subplot(1, 1, 1) ax.patch.set_color('white') # 设置坐标轴属性 lines = plt.gca() # 设置坐标轴颜色 lines.spines['right'].set_color('none') lines.spines['top'].set_color('none') lines.spines['left'].set_color((64/255, 64/255, 64/255)) lines.spines['bottom'].set_color((64/255, 64/255, 64/255)) lines.xaxis.set_ticks_position('none') lines.yaxis.set_ticks_position('none') # 绘制直方图,设置直方图颜色 ax.hist(df['collection'], bins=30, alpha=0.7, color=(21/255, 47/255, 71/255)) ax.set_title('华语歌单收藏数量分布情况', fontsize=20) # 显示图片 plt.show()
这段代码是用来读取一个 CSV 文件并绘制直方图的。首先,它使用 pandas 库的 read_csv
函数读取名为 music_message_4.csv
的文件,并将其存储在名为 df
的 DataFrame 中。然后,它对该 DataFrame 中的第三列进行处理,将收藏数量转换为对数形式,并将结果存储在名为 collection
的新列中。
接下来,代码使用 matplotlib 库来设置绘图属性。设置了字体样式为华文细黑,字体大小为12,并解决了坐标轴上的负号显示问题。然后,创建一个大小为16x8英寸的图像,并在其中创建一个子图。
接着,代码设置坐标轴的属性,包括颜色和位置。设置了坐标轴的颜色,将右边和顶部的边框颜色设为无色,将左边和底部的边框颜色设为灰色。然后,移动坐标轴的刻度线位置。
最后,代码使用 hist
函数绘制直方图,并设置直方图的颜色。设置了直方图的标题为"华语歌单收藏数量分布情况"。
最后调用 plt.show()
函数显示图像。
相关推荐















