揭秘监督式学习算法：从回归到分类，全面解析

![揭秘监督式学习算法：从回归到分类，全面解析](https://img-blog.csdnimg.cn/20190812170405228.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMzM3MjA2,size_16,color_FFFFFF,t_70) # 1. 监督式学习算法概述** 监督式学习算法是一种机器学习算法，它从标记的数据中学习，以预测或分类新的数据。监督式学习算法使用标记数据，其中每个数据点都有一个已知的标签，例如类别或值。算法学习数据中的模式，并使用这些模式来预测或分类新数据。监督式学习算法有两种主要类型：回归算法和分类算法。回归算法用于预测连续值，例如房价或股票价格。分类算法用于预测离散值，例如电子邮件是否为垃圾邮件或图像是否包含猫。 # 2. 回归算法回归算法是一种监督式学习算法，用于预测连续值的目标变量。它通过拟合输入特征和目标变量之间的关系，来建立一个预测模型。 ### 2.1 线性回归线性回归是最简单的回归算法之一，它假设输入特征和目标变量之间存在线性关系。 #### 2.1.1 最小二乘法最小二乘法是线性回归中常用的优化方法。它通过最小化预测值和实际值之间的平方差，来找到最佳的模型参数。 ```python import numpy as np import pandas as pd from sklearn.linear_model import LinearRegression # 加载数据 data = pd.read_csv('data.csv') # 创建线性回归模型 model = LinearRegression() # 训练模型 model.fit(data[['feature1', 'feature2']], data['target']) # 预测 predictions = model.predict(data[['feature1', 'feature2']]) ``` **逻辑分析：** * `LinearRegression()` 创建一个线性回归模型。 * `fit()` 方法使用最小二乘法训练模型，找到最佳的模型参数。 * `predict()` 方法使用训练好的模型对新数据进行预测。 #### 2.1.2 正则化正则化是一种技术，用于防止模型过拟合。它通过向损失函数添加一个惩罚项，来限制模型参数的大小。 ```python # L1 正则化 model = LinearRegression(penalty='l1') # L2 正则化 model = LinearRegression(penalty='l2') ``` **参数说明：** * `penalty` 参数指定正则化类型，`'l1'` 表示 L1 正则化，`'l2'` 表示 L2 正则化。 ### 2.2 非线性回归当输入特征和目标变量之间不存在线性关系时，可以使用非线性回归算法。 #### 2.2.1 多项式回归多项式回归通过将输入特征升幂，来拟合非线性关系。 ```python # 二次多项式回归 model = PolynomialFeatures(degree=2) data['feature1_squared'] = model.fit_transform(data[['feature1']])**2 data['feature2_squared'] = model.fit_transform(data[['feature2']])**2 data['feature1_feature2'] = model.fit_transform(data[['feature1', 'feature2']])**2 # 训练线性回归模型 model = LinearRegression() model.fit(data[['feature1', 'feature2', 'feature1_squared', 'feature2_squared', 'feature1_feature2']], data['target']) ``` **逻辑分析：** * `PolynomialFeatures()` 创建一个多项式特征转换器。 * `fit_transform()` 方法将输入特征升幂，并创建新的多项式特征。 * 训练后的线性回归模型可以拟合非线性关系。 #### 2.2.2 决策树回归决策树回归通过构建一个决策树，来拟合非线性关系。 ```python from sklearn.tree import DecisionTreeRegressor # 创建决策树回归模型 model = DecisionTreeRegressor() # 训练模型 model.fit(data[['feature1', 'feature2']], data['target']) # 预测 predictions = model.predict(data[['feature1', 'feature2']]) ``` **逻辑分析：** * `DecisionTreeRegressor()` 创建一个决策树回归模型。 * `fit()` 方法训练模型，构建决策树。 * `predict()` 方法使用训练好的模型对新数据进行预测。 # 3. 分类算法** 分类算法旨在将数据点分配到离散类别中。与回归算法不同，分类算法的输出不是连续值，而是离散的标签。分类算法广泛应用于各种领域，包括图像识别、文本分类和医疗诊断。 **3.1 线性分类器** 线性分类器是基于线性模型的分类算法。它们将输入数据点投影到一个线性超平面，并将数据点分配到超平面两侧的类别中。 **3.1.1 感知器** 感知器是一种简单的线性分类器，它使用逐次更新的权重向量来学习将数据点分类到两个类别中。感知器算法如下： ```python import numpy as np class Perceptron: def __init__(self, learning_rate=0.1): self.learning_rate = learning_rate self.weights = np.zeros(1) # 初始化权重向量为零 def fit(self, X, y): """ 训练感知器模型参数： X：输入数据，形状为 (n_samples, n_features) y：目标标签，形状为 (n_samples,) """ for epoch in range(100): # 设置最大迭代次数为 100 for i in range(len(X)): y_pred = np.dot(self.weights, X[i]) # 计算预测值 if y_pred * y[i] <= 0: # 如果预测值和真实标签不同号 self.weights += self.learning_rate * y[i] * X[i] # 更新权重向量 def predict(self, X): """ 预测输入数据的类别参数： X：输入数据，形状为 (n_samples, n_features) 返回： y_pred：预测标签，形状为 (n_samples,) """ y_pred = np.dot(self.weights, X) return np.sign(y_pred) # 使用符号函数将预测值转换为标签 ``` **逻辑分析：** * `fit` 方法使用逐次更新的权重向量来训练模型。 * `predict` 方法使用权重向量和输入数据计算预测值，并使用符号函数将预测值转换为标签。 **3.1.2 支持向量机** 支持向量机 (SVM) 是一种更复杂的线性分类器，它通过最大化分类超平面的间隔来找到最佳分类边界。SVM 算法如下： ```python from sklearn.svm import SVC class SVM: def __init__(self, kernel='linear'): self.kernel = kernel self.model = SVC(kernel=kernel) def fit(self, X, y): """ 训练 SVM 模型参数： X：输入数据，形状为 (n_samples, n_features) y：目标标签，形状为 (n_samples,) """ self.model.fit(X, y) def predict(self, X): """ 预测输入数据的类别参数： X：输入数据，形状为 (n_samples, n_features) 返回： y_pred：预测标签，形状为 (n_samples,) """ return self.model.predict(X) ``` **逻辑分析：** * `fit` 方法使用 Scikit-Learn 的 `SVC` 类来训练 SVM 模型。 * `predict` 方法使用训练好的模型对输入数据进行预测。 **3.2 非线性分类器** 非线性分类器用于处理具有非线性决策边界的分类问题。 **3.2.1 决策树分类** 决策树分类是一种非参数分类算法，它通过递归地将数据点分割成更小的子集来构建决策树。决策树算法如下： ```python from sklearn.tree import DecisionTreeClassifier class DecisionTree: def __init__(self, max_depth=5): self.max_depth = max_depth self.model = DecisionTreeClassifier(max_depth=max_depth) def fit(self, X, y): """ 训练决策树模型参数： X：输入数据，形状为 (n_samples, n_features) y：目标标签，形状为 (n_samples,) """ self.model.fit(X, y) def predict(self, X): """ 预测输入数据的类别参数： X：输入数据，形状为 (n_samples, n_features) 返回： y_pred：预测标签，形状为 (n_samples,) """ return self.model.predict(X) ``` **逻辑分析：** * `fit` 方法使用 Scikit-Learn 的 `DecisionTreeClassifier` 类来训练决策树模型。 * `predict` 方法使用训练好的模型对输入数据进行预测。 **3.2.2 神经网络分类** 神经网络分类是一种强大的非线性分类算法，它使用多层人工神经元来学习复杂模式。神经网络分类算法如下： ```python import tensorflow as tf class NeuralNetwork: def __init__(self, num_classes, hidden_units=[100, 50]): self.num_classes = num_classes self.hidden_units = hidden_units # 创建神经网络模型 self.model = tf.keras.Sequential() for units in hidden_units: self.model.add(tf.keras.layers.Dense(units, activation='relu')) self.model.add(tf.keras.layers.Dense(num_classes, activation='softmax')) def fit(self, X, y, epochs=100): """ 训练神经网络模型参数： X：输入数据，形状为 (n_samples, n_features) y：目标标签，形状为 (n_samples,) epochs：训练轮数 """ self.model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) self.model.fit(X, y, epochs=epochs) def predict(self, X): """ 预测输入数据的类别参数： X：输入数据，形状为 (n_samples, n_features) 返回： y_pred：预测标签，形状为 (n_samples,) """ return np.argmax(self.model.predict(X), axis=1) ``` **逻辑分析：** * `fit` 方法使用 TensorFlow 创建和训练神经网络模型。 * `predict` 方法使用训练好的模型对输入数据进行预测。 # 4. 算法评估与选择 ### 4.1 评估指标 #### 4.1.1 回归算法评估 | 指标 | 描述 | |---|---| | 均方误差 (MSE) | 预测值与真实值之间的平均平方差 | | 平均绝对误差 (MAE) | 预测值与真实值之间的平均绝对差 | | 均方根误差 (RMSE) | MSE 的平方根 | | 决定系数 (R²) | 预测值与真实值之间拟合程度的度量 | #### 4.1.2 分类算法评估 | 指标 | 描述 | |---|---| | 准确率 | 正确分类的样本比例 | | 精度 | 正确预测为正类的样本比例 | | 召回率 | 正类中被正确预测的样本比例 | | F1 分数 | 精度和召回率的加权平均值 | ### 4.2 模型选择 #### 4.2.1 交叉验证交叉验证是一种评估模型泛化能力的方法。它将数据集划分为多个子集（折），然后依次使用每个子集作为测试集，其余子集作为训练集。通过多次重复此过程，可以获得模型在不同数据集上的平均性能。 ```python from sklearn.model_selection import cross_val_score # 载入数据 data = pd.read_csv('data.csv') # 定义模型 model = LinearRegression() # 定义交叉验证参数 cv = 5 # 计算交叉验证分数 scores = cross_val_score(model, data[['feature1', 'feature2']], data['target'], cv=cv) # 打印平均分数 print("平均交叉验证分数：", np.mean(scores)) ``` #### 4.2.2 正则化正则化是一种防止模型过拟合的技术。它通过向损失函数添加一个惩罚项来实现，该惩罚项与模型的复杂性成正比。正则化有助于找到既能拟合训练数据又能泛化到新数据上的模型。 | 正则化方法 | 描述 | |---|---| | L1 正则化 | 惩罚模型系数的绝对值 | | L2 正则化 | 惩罚模型系数的平方 | | 弹性网络正则化 | L1 和 L2 正则化的组合 | ```python from sklearn.linear_model import LinearRegression # 定义模型 model = LinearRegression() # 设置正则化参数 model.alpha = 0.1 # 训练模型 model.fit(data[['feature1', 'feature2']], data['target']) ``` # 5. 监督式学习算法应用监督式学习算法在实际应用中有着广泛的应用场景，主要包括以下两个方面： ### 5.1 预测预测是监督式学习算法最常见的应用之一，其目标是根据历史数据来预测未来或未知的值。常见的预测应用包括： #### 5.1.1 时间序列预测时间序列预测是指利用历史时间序列数据来预测未来趋势或值。例如，在金融领域，可以利用时间序列预测来预测股票价格或汇率走势。 **代码示例：** ```python import pandas as pd import numpy as np from statsmodels.tsa.arima_model import ARIMA # 加载时间序列数据 data = pd.read_csv('stock_prices.csv') data['Date'] = pd.to_datetime(data['Date']) data.set_index('Date', inplace=True) # 构建 ARIMA 模型 model = ARIMA(data['Close'], order=(5, 1, 0)) model_fit = model.fit() # 预测未来值 forecast = model_fit.forecast(steps=10) ``` #### 5.1.2 分类预测分类预测是指根据历史数据来预测一个样本属于某个类别的概率。例如，在医疗领域，可以利用分类预测来诊断疾病或预测患者的预后。 **代码示例：** ```python from sklearn.linear_model import LogisticRegression # 加载分类数据 data = pd.read_csv('medical_diagnosis.csv') # 构建逻辑回归模型 model = LogisticRegression() model.fit(data[['Age', 'Gender', 'Symptoms']], data['Diagnosis']) # 预测样本类别 sample = [30, 'Male', 'Fever, Cough'] prediction = model.predict([sample]) ``` ### 5.2 决策支持监督式学习算法还可以用于决策支持，即帮助决策者做出明智的决策。常见的决策支持应用包括： #### 5.2.1 医疗诊断在医疗领域，监督式学习算法可以辅助医生进行疾病诊断。例如，通过分析患者的症状和体征，算法可以预测患者患有某种疾病的概率。 **代码示例：** ```python from sklearn.tree import DecisionTreeClassifier # 加载医疗诊断数据 data = pd.read_csv('medical_diagnosis.csv') # 构建决策树模型 model = DecisionTreeClassifier() model.fit(data[['Age', 'Gender', 'Symptoms']], data['Diagnosis']) # 预测患者疾病 patient = [30, 'Male', 'Fever, Cough'] prediction = model.predict([patient]) ``` #### 5.2.2 金融分析在金融领域，监督式学习算法可以帮助分析师做出投资决策。例如，通过分析历史股票价格和经济数据，算法可以预测股票的未来走势。 **代码示例：** ```python from sklearn.ensemble import RandomForestClassifier # 加载金融数据 data = pd.read_csv('stock_prices.csv') data['Date'] = pd.to_datetime(data['Date']) data.set_index('Date', inplace=True) # 构建随机森林模型 model = RandomForestClassifier() model.fit(data[['Open', 'High', 'Low', 'Volume']], data['Trend']) # 预测股票走势 stock = ['Apple', 'Microsoft', 'Google'] prediction = model.predict(data.loc[stock, ['Open', 'High', 'Low', 'Volume']]) ```

最低0.47元/天解锁专栏

买1年送3月

点击查看下一篇

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

揭秘监督式学习算法：从回归到分类，全面解析

相关推荐

专栏目录

专栏目录

揭秘监督式学习算法：从回归到分类，全面解析

相关推荐

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

（参考GUI）MATLAB GUI漂浮物垃圾分类检测.zip

人脸识别_OpenCV_活体检测_证件照拍照_Demo_1741778955.zip

人脸识别_科大讯飞_Face_签到系统_Swface_1741770704.zip

跟网型逆变器小干扰稳定性分析与控制策略优化simulink仿真模型和代码.zip

16-1文本表示&词嵌入.ipynb

45页-零碳智慧园区标准解决方案：模块化、可扩展且可复制的解决方案.pdf

人脸识别_活体检测_数据录入_登录系统Face_Login_1741778308.zip

学生信息管理平台是一个基于Java Web技术的综合性管理平台

专栏目录

最新推荐

JY01A直流无刷IC全攻略：深入理解与高效应用

【S参数转换表准确性】：实验验证与误差分析深度揭秘

【TongWeb7内存管理教程】：避免内存泄漏与优化技巧

无线定位算法优化实战：提升速度与准确率的5大策略

成本效益深度分析：ODU flex-G.7044网络投资回报率优化

【Delphi编程智慧】：进度条与异步操作的完美协调之道

C语言编程：构建高效的字符串处理函数

【抗干扰策略】：这些方法能极大提高PID控制系统的鲁棒性

业务连续性的守护者：中控BS架构考勤系统的灾难恢复计划

自定义环形菜单

专栏目录

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集