Kaggle比赛：Sklearn在数据科学伦敦挑战中的应用

134 浏览量更新于2024-08-29 1 收藏 419KB PDF 举报

"Kaggle比赛系列的第六部分专注于在数据科学伦敦项目中使用Scikit-learn库进行机器学习。文章探讨了如何通过逐步优化模型来提高性能，首先从一个简单的模型开始，然后进行特征工程，如特征标准化和降维。Gaussian Mixture Models (GMM) 在这个过程中被用来对输入特征进行后验概率预测，创建新的特征以增强聚类效果。文章还涉及到使用Pandas读取CSV数据，并展示了如何应用K-Nearest Neighbors (KNN) 算法，特别是通过网格搜索来调整关键参数n_neighbors。" 在这个Kaggle比赛中，作者首先介绍了一个基础策略，即建立一个基准模型。这个基准模型通常是简单但可度量的，它为后续的模型改进提供了一个起点。在Scikit-learn中，这个基础模型可能包括对输入特征进行预处理，如标准化。标准化是将数据转换到具有零均值和单位方差的标准正态分布，这有助于消除不同特征尺度的影响。特征降维是另一个优化技术，它可以帮助减少数据的复杂性，同时保持重要信息。这可以通过主成分分析(PCA)或其他降维方法实现，它们可以降低多维数据集的维度，减少计算负担并可能提升模型的泛化能力。 Gaussian Mixture Models (GMM) 被用于特征工程中，GMM是一种概率模型，可以用来建模数据的多峰分布。在本例中，GMM用于预测输入特征的后验概率，这些概率可以作为新特征，使得同一类别的特征距离变得更短，从而改善聚类效果。这可以增强模型识别不同类别模式的能力。接着，文章演示了如何使用Pandas库加载CSV数据，并通过`pd.read_csv`函数读取数据集。`train_test_split`函数被用来分割数据集，创建训练集和测试集，以便进行模型训练和评估。之后，作者介绍了K-Nearest Neighbors (KNN) 算法，这是一个基于实例的学习方法，用于分类和回归任务。在KNN中，新样本会根据其最近邻的类别进行分类。文章特别强调了通过网格搜索来调整KNN的关键参数`n_neighbors`，这是一种参数调优的技术，通过遍历一系列预定义的参数值，寻找最优的超参数组合，以提高模型的性能。这段代码片段仅显示了部分KNN参数网格搜索的设置，完整的流程通常包括定义一个参数网格，使用`GridSearchCV`类来搜索最佳参数，并利用交叉验证来评估不同参数设置下的模型性能。这篇文章深入浅出地介绍了Scikit-learn在Kaggle竞赛中的应用，涵盖了数据预处理、模型选择、参数调优以及特征工程等多个方面，这些都是机器学习流程中的关键步骤。通过这样的实践，读者可以更好地理解和应用这些技术，以提高模型在实际问题上的表现。

Kaggle比赛系列：（比赛系列：（6））Sklearn应用：应用：data-science-london-scikit-learn

1、先使用一个简单的模型，得到一个、先使用一个简单的模型，得到一个baseline，在此基础上改进：输入特征标准化、特征降维等；，在此基础上改进：输入特征标准化、特征降维等；

2、这里出现了、这里出现了GMM算法，其实际作用是对输入特征进行了后验概率的预测，构建了新的输入特征（使同一类的特征距离更短，聚类作用）算法，其实际作用是对输入特征进行了后验概率的预测，构建了新的输入特征（使同一类的特征距离更短，聚类作用）

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from subprocess import check_output

import warnings

warnings.filterwarnings('ignore')

print(check_output(['ls',"input"]).decode("utf8"))

test.csv

train.csv

trainLabels.csv

1、、 read_csv注意原文件有没有注意原文件有没有header，没有，没有header，赋值，赋值None

train = pd.read_csv("input/train.csv",header=None)#不读字段头

trainLabel = pd.read_csv("input/trainLabels.csv", header=None)

test = pd.read_csv("input/test.csv", header=None)

plt.style.use('ggplot')

print(train.shape)

print(trainLabel.shape)

print(test.shape)

(1000, 40)

(1000, 1)

(9000, 40)

from sklearn.neighbors import KNeighborsClassifier

from sklearn.model_selection import cross_val_score,train_test_split

X, y = train,trainLabel

x_train,x_test,y_train,y_test = train_test_split(X,y,test_size = 0.3)

方法一：方法一：KNN n_neigbors参数网格搜索参数网格搜索

2、使用、使用KNN算法的时候，对算法的时候，对neighbors的值可以采用网格搜索的值可以采用网格搜索

3、、np.arange().reshape()常搭配一起使用常搭配一起使用

4、、model训练的数据集是经过训练的数据集是经过train_test_split划分之后的训练集，而计算准确率的时候，是对整个训练数据集划分之后的训练集，而计算准确率的时候，是对整个训练数据集

neig = np.arange(1,25)#np.arange 不是 np.range

kfold = 10

train_accuracy = [] val_accuracy = [] bestknn = None

bestAcc = 0.0

for i,k in enumerate(neig):

knn = KNeighborsClassifier(n_neighbors=k)

knn.fit(x_train, y_train)#这里是train_test_split之后的训练特征和标签

train_accuracy.append(knn.score(x_train, y_train))

val_scores = cross_val_score(knn,X, y, cv = kfold)#这里是整个训练集的特征和标签

val_acc = val_scores.mean()

val_accuracy.append(val_acc)

if val_acc > bestAcc:

bestAcc = val_acc

bestknn = knn

plt.figure(figsize = (13,8))

plt.plot(neig,val_accuracy, label = "Validation Acurracy")

plt.plot(neig,train_accuracy, label = "Train Accuracy")

plt.legend(loc = "best")

plt.title("K value VS Accuracy")

plt.xlabel("K value")

plt.ylabel("Accuracy")

plt.xticks(neig)

plt.show()

print(bestAcc)

print(bestknn)

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38729685

粉丝: 4
资源: 927

Kaggle比赛：Sklearn在数据科学伦敦挑战中的应用

各类速查表汇总-Python For Data Science Cheat Sheet Scikit-Learn

London-scikit:Data Science London 正在举办一场关于 Scikit-learn 的聚会。 本次比赛是尝试、分享和创建 sklearn 分类能力示例的实践场（如果这变成了有用的东西，我们可以跟进回归，或更复杂的分类问题）

Kaggle竞赛实践：使用sklearn进行数据分析与建模

garethjns/Kaggle-EEG:根据脑电数据预测癫痫发作-matlab开发

[] - 2022-12-22 Kaggle知识点：Sklearn异常检测方法.pdf

kaggle: data-science-for-good.tar-数据集

kaggle : data-science-for-good.tar-数据集

DigitRecognizer-Kaggle:使用 Scikit-Learn 进行数字识别器 Kaggle 竞赛

kaggle-dae:kaggleのporto-seguro-safe-driver-prediction，迈克尔の解算器

scikit-learn-training：用于scikit-learn的机器学习的后续文件

最新资源

London-scikit:Data Science London 正在举办一场关于 Scikit-learn 的聚会。本次比赛是尝试、分享和创建 sklearn 分类能力示例的实践场（如果这变成了有用的东西，我们可以跟进回归，或更复杂的分类问题）