nba_2020_nba_players_with_salary.csv下载
时间: 2024-02-04 19:00:58 浏览: 171
nba_2020_nba_players_with_salary.csv是一个包含2020年NBA球员薪水信息的数据文件,可以通过下载获取。这个数据文件可以用来分析NBA球员在2020年的薪水情况,包括球员的姓名、所属球队、薪水数额等信息,对于研究NBA球员的薪酬情况具有很高的参考价值。
想要获取这个数据文件,可以通过NBA官方网站或者NBA相关的数据平台进行下载。一般来说,这样的数据文件会以CSV格式提供,可以使用Excel、Python、R等数据分析工具来打开和处理。在获取数据文件之后,可以通过数据分析和数据可视化的方法,对球员薪水数据进行深入的研究和分析,从而了解不同球员之间的薪酬差异,球队的薪酬结构等信息。
另外,这个数据文件也可以用于构建机器学习模型,对球员的薪酬进行预测和分析。通过对球员薪水的历史数据进行建模和预测,可以帮助球队管理层和球员代理人进行合同谈判和薪酬规划。总之,nba_2020_nba_players_with_salary.csv是一个非常有价值的数据文件,对于了解NBA球员薪酬情况和进行相关研究具有重要意义。
相关问题
import pandas as pd from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsRegressor from sklearn.preprocessing import StandardScaler # 读取CSV文件 data = pd.read_csv("D:/Salary_data.csv") # 去除缺失值 data.dropna(inplace=True) # 将分类变量转换为虚拟变量 data = pd.get_dummies(data) # 将特征和目标变量分开 X = data.drop('Salary', axis=1) y = data['Salary'] # 将数据集分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 标准化特征 scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) # 创建KNN回归器 knn = KNeighborsRegressor(n_neighbors=5) # 在训练集上拟合模型 knn.fit(X_train, y_train) # 在测试集上评估模型 score = knn.score(X_test, y_test) print("R-squared score:", score) R-squared score: 0.6441725303407546 绘制可视化
好的,根据您提供的R-squared score为0.6441725303407546,您可以绘制一张散点图来可视化模型的预测结果和实际结果之间的关系。以下是示例代码:
```python
import matplotlib.pyplot as plt
# 在测试集上进行预测
y_pred = knn.predict(X_test)
# 绘制散点图
plt.scatter(y_test, y_pred)
plt.xlabel("Actual Salary")
plt.ylabel("Predicted Salary")
plt.title("KNN Regression - Actual vs. Predicted Salary")
# 绘制一条直线表示完美预测的情况
min_val = min(y_test.min(), y_pred.min())
max_val = max(y_test.max(), y_pred.max())
plt.plot([min_val, max_val], [min_val, max_val], '--', color='red')
plt.show()
```
这段代码将生成一个散点图,其中x轴表示实际薪资,y轴表示预测薪资,红色虚线表示完美预测的情况。您可以根据需要自定义图表的样式和布局。
# 读取数据 df = pd.read_csv(city+'_'+kind+'_'+'lagou.csv', encoding='utf-8') # 数据清洗,剔除实习岗位 df.drop(df[df['职位名称'].str.contains('实习')].index,inplace=True) pattern = '\d+' df['work_year'] = df['工作经验'].str.findall(pattern) print('work_year:', df['work_year']) # 数据处理后的工作年限 avg_work_year = [] # 工作年限 for i in df['work_year']: # 如果工作经验为'不限'或应届毕业生',那么匹配值为空,工作年限为0 if len(i) == 0: avg_work_year.append(0) # 如果匹配值为一个数值,那么返回该数值 elif len(i) == 1: avg_work_year.append(int(''.join(i))) # 如果匹配值为一个区间,那么取平均值 else: num_list = [int(j) for j in i] avg_year = sum(num_list)/2 avg_work_year.append(avg_year) print('avg_work_year:',avg_work_year) df['工作经验'] = avg_work_year df['salary'] = df['工资'].str.findall(pattern) # 月薪 avg_salary = [] for k in df['salary']: int_list = [int(n) for n in k] # 存在工资只有一个区间,[20],所以用[-1]. avg_wage = int_list[0] + (int_list[-1] - int_list[0]) / 4 avg_salary.append(avg_wage) df['月工资'] = avg_salary df['学历要求'] = df['学历要求'].replace('不限', '大专') df.to_csv(city+'_'+kind+'_'+'lagou_finall.csv', index=False, encoding='utf-8_sig') plt.rcParams['font.sans-serif'] = ['simhei'] plt.rcParams['font.serif'] = ['simhei']
这段代码的作用是读取一个名为 city+'_'+kind+'_'+'lagou.csv' 的 CSV 文件,并对文件进行数据清洗,剔除实习岗位。然后通过正则表达式匹配工作经验和工资,并计算平均工作年限和月薪。接着,将学历要求中的“不限”替换为“大专”,并将处理后的数据保存为一个名为 city+'_'+kind+'_'+'lagou_finall.csv' 的新的 CSV 文件。最后,使用 matplotlib 库设置字体,并可以进行数据可视化分析。
阅读全文