支持向量机(SVM)的核心概念详解

发布时间: 2024-04-10 05:26:50 阅读量: 58 订阅数: 58
# 1. 支持向量机(SVM)简介 ### 1.1 SVM 的定义与历史 支持向量机(Support Vector Machine, SVM)是一种二分类模型,其基本模型是定义在特征空间上的间隔最大的线性分类器。SVM的基本思想是通过求解凸二次优化问题找到一个分隔超平面,使得不同类别的样本点到超平面的间隔最大化。 SVM最早由Vapnik等人在上世纪60年代末提出,并在之后逐步完善和发展。 ### 1.2 SVM 的优点与应用领域 支持向量机作为一种强大的分类器,具有以下优点: - 在高维空间有效 - 泛化能力强 - 可解释性好 支持向量机在实际中具有广泛的应用领域,包括但不限于: 1. 文本分类 2. 图像识别 3. 生物信息学 4. 金融风险评估 5. 医学诊断 支持向量机在这些领域中的表现优异,成为了机器学习领域中不可或缺的重要算法之一。 # 2. 线性可分支持向量机 支持向量机(Support Vector Machine, SVM)是一种常用的机器学习算法,其中线性可分支持向量机是其最基本的形式之一。在本章中,我们将深入探讨线性可分支持向量机的相关概念和原理。 ### 2.1 线性分类器与感知器 在线性可分支持向量机中,最基本的概念之一是线性分类器。线性分类器通过一个线性超平面对数据进行分类,将不同类别的数据点进行划分。而感知器是最简单的线性分类器之一,其原理是通过迭代更新权重,使得分类误差最小化。 在实际应用中,我们可以使用代码来实现感知器算法并可视化分类结果。下面是一个简单的 Python 示例代码: ```python import numpy as np import matplotlib.pyplot as plt # 生成线性可分数据 X = np.array([[2, 1], [2, 3], [1, 2], [3, 3]]) y = np.array([-1, -1, 1, 1]) # 初始化权重和偏置 w = np.zeros(2) b = 0 # 感知器训练过程 def perceptron_train(X, y, w, b): lr = 1 # 学习率 epochs = 10 # 迭代次数 for _ in range(epochs): for i in range(len(X)): if y[i] * (np.dot(w, X[i]) + b) <= 0: w += lr * y[i] * X[i] b += lr * y[i] return w, b # 训练感知器 w, b = perceptron_train(X, y, w, b) # 绘制分类结果 plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Paired) x_axis = np.linspace(0, 4, 10) y_axis = -(w[0] * x_axis + b) / w[1] plt.plot(x_axis, y_axis, color='r') plt.show() ``` 通过以上代码,我们可以看到感知器算法在简单的线性可分数据上进行分类,并绘制出分类超平面。 ### 2.2 最大间隔超平面的概念 在支持向量机中,最大间隔超平面是线性可分数据中有效的划分超平面。通过最大化支持向量到超平面的距离,我们可以找到最优的超平面,从而实现更好的分类效果。 接下来,我们将通过一个 mermaid 格式的流程图来展示最大间隔超平面的概念: ```mermaid graph TD A[收集训练数据集] --> B(训练支持向量机模型) B --> C{是否线性可分?} C -->|是| D[找到最大间隔超平面] C -->|否| E[引入松弛变量处理线性不可分情况] ``` 以上流程图展示了线性可分情况下训练支持向量机找到最大间隔超平面的过程,有助于读者更直观地理解其中的步骤和思想。 通过本章内容的学习,读者可以对线性可分支持向量机的原理和应用有一个清晰的认识,为后续的学习打下坚实的基础。 # 3. 线性不可分支持向量机 在实际问题中,数据往往是线性不可分的,这时候就需要使用线性不可分支持向量机(Nonlinear Support Vector Machine)。本章节将探讨线性不可分支持向量机的相关概念以及解决方法。 ### 3.1 软间隔与松弛变量 在线性不可分情况下,我们引入“软间隔”概念,允许一些样本点处于间隔边界内部。这时,我们需要引入松弛变量 $\xi$ 来实现软间隔,使得部分样本点可以位于间隔内。 具体来说,对于每个样本点 $(x_i, y_i)$,我们引入松弛变量 $\xi_i$,则分离超平面表达式变为: $$y_i(w \cdot x_i + b) \geq 1 - \xi_i, \quad i = 1, 2, \ldots, N$$ 其中 $N$ 为样本数量。 ### 3.2 核技巧的引入 当数据线性不可分时,我们常常使用核技巧(Kernel Trick)来将数据映射到高维空间,从而使得数据在高维空间中线性可分。常见的核函数包括线性核、多项式核、高斯核等。核技巧的核心思想是利用核函数代替内积运算,从而减少计算复杂度。 #### 代码示例: ```python from sklearn import svm X = [[0, 0], [1, 1]] y = [0, 1] clf = svm.SVC(kernel='rbf') clf.fit(X, y) ``` #### 结果说明: 以上代码示例演示了使用高斯核函数(即 RBF 核函数)的支持向量机模型进行训练的过程。 #### 流程图: ```mermaid graph TD A[数据预处理] --> B{数据线性不可分?} B -- 是 --> C[应用核技巧] B -- 否 --> D[直接训练模型] C --> E[模型训练] D --> E E --> F[模型评估] ``` 通过引入软间隔和松弛变量以及核技巧,我们可以有效处理线性不可分数据的支持向量机建模问题。 # 4. 核函数与非线性支持向量机 支持向量机在处理非线性分类问题时,通常通过引入核函数来将数据映射到高维空间,在高维空间中寻找最优的超平面来进行分类。本章将深入探讨核函数的定义、常见类型以及非线性支持向量机的原理与实现。 #### 4.1 核函数的定义与常见类型 在支持向量机中,核函数的作用是将输入空间中的数据映射到一个高维特征空间,从而使得原本线性不可分的问题在高维空间中变得线性可分。常见的核函数类型包括: | 核函数类型 | 数学表达式 | 特点 | |--------------|------------------------------|------------------------------------| | 线性核函数 | $K(\mathbf{x}, \mathbf{y}) = \mathbf{x}^T \cdot \mathbf{y}$ | 最简单的核函数,适用于线性可分问题 | | 多项式核函数 | $K(\mathbf{x}, \mathbf{y}) = (\gamma \cdot \mathbf{x}^T \cdot \mathbf{y} + r)^d$ | 可实现非线性映射,通过调节参数 $d$ 实现不同程度的非线性 | | 高斯径向基核函数 | $K(\mathbf{x}, \mathbf{y}) = \exp(-\gamma ||\mathbf{x} - \mathbf{y}||^2)$ | 非常常用的核函数,能够将数据映射到无穷维空间 | #### 4.2 非线性支持向量机的原理与实现 在支持向量机中,通过使用核函数,我们可以将输入空间中的数据映射到高维空间,使原本非线性可分的问题变为线性可分,从而找到最优的分割超平面。非线性支持向量机的实现步骤包括: 1. 使用合适的核函数对数据进行映射,常用的有线性核函数、多项式核函数和高斯径向基核函数等。 2. 在高维空间中找到最优的超平面,使得不同类别的数据点能够被最大间隔分割。 3. 通过支持向量找到最终的决策边界,实现数据的分类。 下面是一个使用 Python 实现的非线性支持向量机的示例代码: ```python import numpy as np from sklearn.svm import SVC # 创建非线性数据集 np.random.seed(0) X = np.random.randn(100, 2) y = np.logical_xor(X[:, 0] > 0, X[:, 1] > 0) # 使用高斯径向基核函数训练支持向量机 svm = SVC(kernel='rbf', gamma='auto') svm.fit(X, y) # 绘制决策边界 # (... 此处为绘图代码,略去 ...) # 输出模型准确率 accuracy = svm.score(X, y) print(f"模型准确率:{accuracy}") ``` 通过以上代码,我们可以实现对非线性数据集的分类任务,并通过高斯径向基核函数实现支持向量机的训练。该代码将数据映射到高维空间,找到最优的超平面进行分类,最终输出模型的准确率。 #### 非线性支持向量机示意流程图: ```mermaid graph TD A[开始] --> B{数据集是否线性可分} B -- 是 --> C[选择核函数] C --> D[映射到高维特征空间] D --> E[寻找最优超平面] E --> F[分类预测] F --> G[结束] B -- 否 --> G ``` 通过以上章节内容的讨论,读者可以更深入地了解核函数在支持向量机中的作用以及如何应用于解决非线性分类问题。 # 5. 支持向量机的优化算法 支持向量机(SVM)在实际应用中需要进行参数优化,而其中最核心的部分就是优化算法。本章将详细介绍支持向量机的优化算法,包括凸优化与拉格朗日对偶性,以及序列最小最优化(SMO)算法解决凸二次规划问题。 ### 5.1 凸优化与拉格朗日对偶性 在支持向量机中,我们需要解决凸二次规划问题。凸优化理论告诉我们,对于凸优化问题,最优解一定存在且是唯一的。而在支持向量机中,利用拉格朗日对偶性将原始问题转化为对偶问题,更容易求解。 拉格朗日对偶性的核心思想是,将约束优化问题转化为无约束优化问题,通过引入拉格朗日乘子来实现。这样做的优势在于,对偶问题往往更容易求解,并且可以得到原始问题的最优解。 #### 凸优化公式示例: | 优化问题 | 目标函数 | 约束条件 | | --------- | ------- | ------- | | 求最小值 | $f(x)$ | $h_i(x) = 0$ | | | | $g_i(x) \leq 0$ | ### 5.2 序列最小最优化(SMO)算法解决凸二次规划问题 SMO算法是一种高效的算法,用于解决支持向量机的优化问题。通过将大优化问题分解为多个小优化子问题,SMO算法可以高效地求解支持向量机的参数。 SMO算法的核心思想是每次选择两个变量,固定其他变量,通过解析公式直接求解这两个变量,然后对这两个变量进行更新,直到满足收敛条件。 ```python # SMO算法示例代码 def SMO(X, y, C, tol, max_passes): alphas = np.zeros(m) b = 0 passes = 0 while passes < max_passes: num_changed_alphas = 0 for i in range(m): E_i = np.dot(alphas*y, X.dot(X[i])) + b - y[i] if (y[i]*E_i < -tol and alphas[i] < C) or (y[i]*E_i > tol and alphas[i] > 0): j = np.random.choice(list(range(m)), exclude=i) E_j = np.dot(alphas*y, X.dot(X[j])) + b - y[j] alpha_i_old, alpha_j_old = alphas[i], alphas[j] L, H = get_L_H(alphas, y, i, j, C) if L == H: continue eta = 2 * X[i].dot(X[j]) - X[i].dot(X[i]) - X[j].dot(X[j]) if eta >= 0: continue alphas[j] -= y[j] * (E_i - E_j) / eta alphas[j] = min(H, max(L, alphas[j])) if abs(alphas[j] - alpha_j_old) < 1e-5: continue alphas[i] += y[i] * y[j] * (alpha_j_old - alphas[j]) b1 = b - E_i - y[i] * (alphas[i] - alpha_i_old) * X[i].dot(X[i]) - y[j] * (alphas[j] - alpha_j_old) * X[i].dot(X[j]) b2 = b - E_j - y[i] * (alphas[i] - alpha_i_old) * X[i].dot(X[j]) - y[j] * (alphas[j] - alpha_j_old) * X[j].dot(X[j]) if 0 < alphas[i] < C: b = b1 elif 0 < alphas[j] < C: b = b2 else: b = (b1 + b2) / 2 num_changed_alphas += 1 if num_changed_alphas == 0: passes += 1 else: passes = 0 return alphas, b ``` 通过SMO算法,可以高效地优化支持向量机的参数,使得模型在训练数据上表现更好。 以上是支持向量机(SVM)的优化算法部分内容,通过凸优化与SMO算法的学习,可以更好地理解支持向量机的原理与实现。 # 6. 支持向量机的参数调优 在支持向量机(SVM)中,参数的选择对模型的性能起着至关重要的作用。本章将重点介绍如何通过调优参数来提升SVM的性能。 #### 6.1 核函数参数选择 在使用核函数的情况下,选择合适的核函数参数可以影响模型的拟合效果。常见的核函数参数包括: - **C参数**:C参数控制了对误差的容忍程度,较大的C值将使模型更倾向于正确分类每一个样本,但容易过拟合。 - **gamma参数**:gamma参数定义了单个样本对整个模型的影响范围,较大的gamma值会导致模型只关注局部的样本点,而不是整体的数据分布。 下表展示了不同参数取值对SVM模型性能的影响: | C参数 | gamma参数 | 模型性能 | |-------|-----------|---------| | 0.1 | 0.01 | 较差 | | 1 | 0.1 | 一般 | | 10 | 1 | 良好 | | 100 | 10 | 优秀 | #### 6.2 正则化参数调整 正则化参数在SVM中被用来抑制模型过拟合的情况,通过调整正则化参数可以平衡模型的复杂度与准确性。常见的正则化参数包括: - **正则化系数C**:C越大,正则化效果越低,模型更倾向于正确分类每一个样本。 - **惩罚项penalty**:可以选择L1正则化或L2正则化,L1正则化有利于产生稀疏的模型,而L2正则化对异常值更加鲁棒。 接下来是一个Python代码段,展示了如何使用GridSearchCV进行交叉验证调参: ```python from sklearn.model_selection import GridSearchCV from sklearn.svm import SVC parameters = {'C': [0.1, 1, 10, 100], 'gamma': [0.01, 0.1, 1, 10]} svc = SVC() clf = GridSearchCV(svc, parameters) clf.fit(X_train, y_train) best_params = clf.best_params_ print("最佳参数:", best_params) ``` 下面是一个使用mermaid格式的流程图,展示了参数调优的流程: ```mermaid graph LR A[开始] --> B[设置参数范围] B --> C[交叉验证] C --> D[选择最佳参数] D --> E[训练模型] E --> F[模型评估] F --> G[结束] ``` 通过本章的学习,读者可以更好地了解支持向量机(SVM)中参数调优的重要性,以及如何通过调整参数来提升模型性能。 # 7. 支持向量回归与多类分类问题 支持向量机(SVM)不仅可以用于分类问题,还可以应用于回归和多类分类任务中。在本章节中,我们将重点探讨支持向量回归和多类分类问题的相关概念和方法。 ### 7.1 支持向量回归的原理与应用 支持向量回归(SVR)是一种利用支持向量机思想处理回归问题的方法。SVR的核心思想是找到一个最优的超平面,使得大部分样本点到该超平面的距离都小于等于一定值,同时尽量使超平面距离最大。 在SVR中,我们通常使用的损失函数是 epsilon-insensitive 损失函数,其数学表达式如下: \[ L_{\epsilon}(y, f(x)) = \begin{cases} 0, \quad |y - f(x)| \leq \epsilon \\ |y - f(x)| - \epsilon, \quad otherwise \end{cases} \] SVR的目标是最小化正则化项和损失函数,以找到最佳拟合曲线,从而进行回归预测。 ### 7.2 多类分类问题下的支持向量机扩展 支持向量机可以通过一些技术扩展到多类分类问题上,其中最常见的方法是 "一对多" 方法。即将原始的多类分类问题转化为多个二类分类问题,每次将其中一类作为正样本,其他类作为负样本进行分类,最终进行综合判断。 下表列出了支持向量机多类分类问题的示例数据: | 特征1 | 特征2 | 类别 | | ------ | ------ | ------ | | 1.2 | 2.3 | A | | 2.4 | 3.5 | B | | 3.6 | 4.7 | C | | 4.8 | 5.9 | A | | 2.1 | 3.4 | B | | 3.7 | 4.1 | C | | 1.6 | 2.8 | A | 以下是一个简单的 Python 代码段,演示了如何使用支持向量机进行多类分类: ```python from sklearn.svm import SVC import numpy as np X = np.array([[1.2, 2.3], [2.4, 3.5], [3.6, 4.7], [4.8, 5.9], [2.1, 3.4], [3.7, 4.1], [1.6, 2.8]]) y = np.array(['A', 'B', 'C', 'A', 'B', 'C', 'A']) model = SVC(kernel='linear') model.fit(X, y) test_data = np.array([[2.0, 3.0], [3.5, 4.8], [1.8, 2.5]]) predictions = model.predict(test_data) print(predictions) ``` 在上面的代码中,我们使用了 sklearn 库中的 SVC 类来构建支持向量机模型,通过线性核进行多类分类预测。通过运行以上代码,我们可以得到多类分类问题的分类结果。 流程图如下所示,展示了支持向量机多类分类问题的工作流程: ```mermaid graph LR A[数据准备] --> B[模型选择] B --> C[模型训练] C --> D[模型测试] D --> E[结果评估] ``` 通过这些示例数据、代码、表格和流程图的展示,读者可以更好地理解支持向量机在支持向量回归和多类分类问题上的应用和扩展。
corwn 最低0.47元/天 解锁专栏
买1年送3月
点击查看下一篇
profit 百万级 高质量VIP文章无限畅学
profit 千万级 优质资源任意下载
profit C知道 免费提问 ( 生成式Al产品 )

相关推荐

SW_孙维

开发技术专家
知名科技公司工程师,开发技术领域拥有丰富的工作经验和专业知识。曾负责设计和开发多个复杂的软件系统,涉及到大规模数据处理、分布式系统和高性能计算等方面。
专栏简介
本专栏深入剖析了支持向量机 (SVM) 的方方面面,从基本原理到核心概念,从线性可分到非线性不可分问题的处理,从目标函数到优化算法。专栏还探讨了软间隔和硬间隔 SVM 的区别,正则化的作用和重要性,以及超参数调优和核函数选择技巧。此外,专栏还提供了 SVM 在文本分类、图像识别、金融风控、生物信息学和推荐系统等领域的应用案例解析,并比较了 SVM 与逻辑回归。最后,专栏探讨了 SVM 与深度学习的融合和对比,以及 SVM 在异常检测中的应用。
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
C知道 免费提问 ( 生成式Al产品 )

最新推荐

贝叶斯优化软件实战:最佳工具与框架对比分析

# 1. 贝叶斯优化的基础理论 贝叶斯优化是一种概率模型,用于寻找给定黑盒函数的全局最优解。它特别适用于需要进行昂贵计算的场景,例如机器学习模型的超参数调优。贝叶斯优化的核心在于构建一个代理模型(通常是高斯过程),用以估计目标函数的行为,并基于此代理模型智能地选择下一点进行评估。 ## 2.1 贝叶斯优化的基本概念 ### 2.1.1 优化问题的数学模型 贝叶斯优化的基础模型通常包括目标函数 \(f(x)\),目标函数的参数空间 \(X\) 以及一个采集函数(Acquisition Function),用于决定下一步的探索点。目标函数 \(f(x)\) 通常是在计算上非常昂贵的,因此需

深度学习中的正则化技术:过拟合的终结者

![深度学习中的正则化技术:过拟合的终结者](https://img-blog.csdnimg.cn/20210616211737957.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poYW8yY2hlbjM=,size_16,color_FFFFFF,t_70) # 1. 深度学习与过拟合现象 ## 1.1 过拟合现象概述 在深度学习领域,过拟合是一个常见的问题,其指的是模型在训练数据上表现出色,而在未见过的新数据上性能下降。

随机搜索在强化学习算法中的应用

![模型选择-随机搜索(Random Search)](https://img-blog.csdnimg.cn/img_convert/e3e84c8ba9d39cd5724fabbf8ff81614.png) # 1. 强化学习算法基础 强化学习是一种机器学习方法,侧重于如何基于环境做出决策以最大化某种累积奖励。本章节将为读者提供强化学习算法的基础知识,为后续章节中随机搜索与强化学习结合的深入探讨打下理论基础。 ## 1.1 强化学习的概念和框架 强化学习涉及智能体(Agent)与环境(Environment)之间的交互。智能体通过执行动作(Action)影响环境,并根据环境的反馈获得奖

机器学习调试实战:分析并优化模型性能的偏差与方差

![机器学习调试实战:分析并优化模型性能的偏差与方差](https://img-blog.csdnimg.cn/img_convert/6960831115d18cbc39436f3a26d65fa9.png) # 1. 机器学习调试的概念和重要性 ## 什么是机器学习调试 机器学习调试是指在开发机器学习模型的过程中,通过识别和解决模型性能不佳的问题来改善模型预测准确性的过程。它是模型训练不可或缺的环节,涵盖了从数据预处理到最终模型部署的每一个步骤。 ## 调试的重要性 有效的调试能够显著提高模型的泛化能力,即在未见过的数据上也能作出准确预测的能力。没有经过适当调试的模型可能无法应对实

过拟合的统计检验:如何量化模型的泛化能力

![过拟合的统计检验:如何量化模型的泛化能力](https://community.alteryx.com/t5/image/serverpage/image-id/71553i43D85DE352069CB9?v=v2) # 1. 过拟合的概念与影响 ## 1.1 过拟合的定义 过拟合(overfitting)是机器学习领域中一个关键问题,当模型对训练数据的拟合程度过高,以至于捕捉到了数据中的噪声和异常值,导致模型泛化能力下降,无法很好地预测新的、未见过的数据。这种情况下的模型性能在训练数据上表现优异,但在新的数据集上却表现不佳。 ## 1.2 过拟合产生的原因 过拟合的产生通常与模

VR_AR技术学习与应用:学习曲线在虚拟现实领域的探索

![VR_AR技术学习与应用:学习曲线在虚拟现实领域的探索](https://about.fb.com/wp-content/uploads/2024/04/Meta-for-Education-_Social-Share.jpg?fit=960%2C540) # 1. 虚拟现实技术概览 虚拟现实(VR)技术,又称为虚拟环境(VE)技术,是一种使用计算机模拟生成的能与用户交互的三维虚拟环境。这种环境可以通过用户的视觉、听觉、触觉甚至嗅觉感受到,给人一种身临其境的感觉。VR技术是通过一系列的硬件和软件来实现的,包括头戴显示器、数据手套、跟踪系统、三维声音系统、高性能计算机等。 VR技术的应用

【统计学意义的验证集】:理解验证集在机器学习模型选择与评估中的重要性

![【统计学意义的验证集】:理解验证集在机器学习模型选择与评估中的重要性](https://biol607.github.io/lectures/images/cv/loocv.png) # 1. 验证集的概念与作用 在机器学习和统计学中,验证集是用来评估模型性能和选择超参数的重要工具。**验证集**是在训练集之外的一个独立数据集,通过对这个数据集的预测结果来估计模型在未见数据上的表现,从而避免了过拟合问题。验证集的作用不仅仅在于选择最佳模型,还能帮助我们理解模型在实际应用中的泛化能力,是开发高质量预测模型不可或缺的一部分。 ```markdown ## 1.1 验证集与训练集、测试集的区

网格搜索:多目标优化的实战技巧

![网格搜索:多目标优化的实战技巧](https://img-blog.csdnimg.cn/2019021119402730.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3JlYWxseXI=,size_16,color_FFFFFF,t_70) # 1. 网格搜索技术概述 ## 1.1 网格搜索的基本概念 网格搜索(Grid Search)是一种系统化、高效地遍历多维空间参数的优化方法。它通过在每个参数维度上定义一系列候选值,并

特征贡献的Shapley分析:深入理解模型复杂度的实用方法

![模型选择-模型复杂度(Model Complexity)](https://img-blog.csdnimg.cn/img_convert/32e5211a66b9ed734dc238795878e730.png) # 1. 特征贡献的Shapley分析概述 在数据科学领域,模型解释性(Model Explainability)是确保人工智能(AI)应用负责任和可信赖的关键因素。机器学习模型,尤其是复杂的非线性模型如深度学习,往往被认为是“黑箱”,因为它们的内部工作机制并不透明。然而,随着机器学习越来越多地应用于关键决策领域,如金融风控、医疗诊断和交通管理,理解模型的决策过程变得至关重要

激活函数在深度学习中的应用:欠拟合克星

![激活函数](https://penseeartificielle.fr/wp-content/uploads/2019/10/image-mish-vs-fonction-activation.jpg) # 1. 深度学习中的激活函数基础 在深度学习领域,激活函数扮演着至关重要的角色。激活函数的主要作用是在神经网络中引入非线性,从而使网络有能力捕捉复杂的数据模式。它是连接层与层之间的关键,能够影响模型的性能和复杂度。深度学习模型的计算过程往往是一个线性操作,如果没有激活函数,无论网络有多少层,其表达能力都受限于一个线性模型,这无疑极大地限制了模型在现实问题中的应用潜力。 激活函数的基本