预测模型综述：Naive Bayes、线性回归与决策树详解

5星 · 超过95%的资源需积分: 10 48 浏览量更新于2024-08-04 1 收藏 51KB DOC 举报

本文档详细介绍了各种预测模型在数据分析中的应用，重点讨论了朴素贝叶斯分类器（Naive Bayes）、线性回归（Linear Regression）以及决策树（Decision Tree）。让我们逐一深入探讨这些模型。 1. **朴素贝叶斯（Naive Bayes）**： - Naive Bayes是一种基于贝叶斯定理的简单概率分类算法，特别适用于文本分类问题。在这个例子中，模型通过`naiveBayes()`函数构建，应变量（`y`）是电子邮件是否为垃圾邮件（`spam`），而所有其他特征（除`spam`外）被视为自变量。 - 使用Laplace平滑（`laplace=0`）是为了处理数据中的缺失值或稀疏性，确保模型在遇到未知类别时也能做出预测。 - 预测过程涉及将训练好的模型应用于新数据（`email[,2:19]`），并将预测结果存储在`pred2`中。最后，通过`table()`函数比较预测值与实际标签，评估模型性能。 2. **线性回归（Linear Regression）**： - `createDataPartition()`函数用于创建训练集和测试集，这里使用了`faithful`数据集中的`waiting`属性作为划分依据，训练集占比50%。 - 使用`lm()`函数建立线性回归模型，预测`eruptions`与`waiting`之间的关系。注意，线性回归通常用于连续变量预测，并且其输出是连续数值，不适合用于生成混淆矩阵。 3. **决策树（Decision Tree）**： - 决策树模型通过`rpart()`函数实现，如`Kyphosis`数据集中的脊柱侧弯情况预测，根据`Age`、`Number`和`Start`特征进行分类。 - 使用`rpart()`函数时，`method="class"`表明我们处理的是分类任务。`fit`对象是训练得到的决策树模型，`printcp()`和`plotcp()`用于展示模型的剪枝点和交叉验证结果，`summary()`则提供了树的结构和性能指标。文档展示了三种不同的预测模型，每种模型都有其适用场景和优缺点。朴素贝叶斯适用于文本分类，具有简单和高效的特性；线性回归适用于连续变量预测，提供了一种线性关系的理解；而决策树则以可视化的形式帮助理解数据的决策过程，适用于多类别分类。通过这些模型，我们可以根据不同问题的特点选择合适的预测方法，优化数据分析和预测准确性。

各种预测模型汇总

二、各种预测模型

1、naiveBayes

#应变量 y 为 email$spam，“~.”表示身下的所有属性都是自变量

#第二个参数我也不知道

#第三个参数为数据源

NBfit<-naiveBayes(as.factor(email$spam)~.,laplace=0,data=email)

#用 naiveBayes 的结果做预测，第一个参数为用预测函数形成的对象，第二个参

数为被预测的自变量的值

#再把预测好的应变量的值存入对象 pred2 中

pred2<-predict(NBfit,email[,2:19])

#比较预测值与真实值的差别

#形成一个 2*2 的矩阵，对角线为正确的，其余为预测错误的

table(pred2, email$spam)

2、线性回归（lm 函数）

#createDataPartition 函数用于制作训练集，其中 y=faithful$waiting 指按照

该属性分类，p=0.5 指将 p*100%的值用于训练，list=FALSE 不用管，默认为 false

inTrain<-createDataPartition(y=faithful$waiting, p=0.5, list=FALSE)

#其中 50%用于训练

trainFaith<-faithful[inTrain,]

#剩下 50%用于测试

testFaith<-faithful[-inTrain,]

#回归模型函数在这里################################

#同上，y~x，数据源

lm1<-lm(eruptions~waiting, data=trainFaith)

newdata<-data.frame(waiting=80)

predict(lm1, newdata)

注：由于 lm 函数的预测值是一个置信度为大致 0.95 左右（可以自己定义）的区间，所

以 predict 共有 3 个属性结果，所以不可以用它来预测 table 之类的混淆矩阵

3、决策树：（rpart 函数）

# grow the tree

下载后可阅读完整内容，剩余7页未读，立即下载

阿星先森

粉丝: 208
资源: 1450

预测模型综述：Naive Bayes、线性回归与决策树详解

Excel中的销售预测模型设计.doc

资料汇总:数学建模常用算法----预测方法.zip

信道衰落模型汇总.doc

数学建模方法大汇总.doc

数学建模专题汇总_离散模型.doc

数学建模专题汇总-离散模型.doc

市场销售预测流程.doc

销售预测表下载.doc

市场预测工作流程.doc

6.××信息技术公司商业计划书.doc.doc

最新资源