银行直销数据分类分析：决策树与对比

需积分: 0 122 浏览量更新于2024-08-05 收藏 693KB PDF 举报

"数据仓库大作业二1" 在这个数据仓库的大作业中，主要涉及的是银行直销数据的分类问题，目标是预测客户是否订阅定期存款业务。作业要求学生使用至少两种不同的分类算法，如决策树、朴素贝叶斯或逻辑回归等，并对算法的精度进行比较。同时，作业强调在保证准确率的基础上，尽可能提高真阳率，即正确预测出购买服务的客户数量。 1. 分类评价方法：评价分类效果时，除了关注整体的准确率外，还特别关注真阳率。真阳率是指实际为正类（购买服务）并且被预测为正类的样本比例，它衡量了模型识别真正阳性的能力。在本案例中，由于希望找到更多可能购买服务的客户，所以允许在一定程度上牺牲准确率以提升真阳率。 2. 实验环境：实验是在Windows 10专业版64位操作系统上进行的，配备Intel(R) Core(TM) i7-8700@3.2GHz的处理器和16GB的内存，使用的编程语言是Python 3.7。 3. 决策树分类： - 算法描述：决策树通过信息增益来选择最优划分属性。对于数值型属性，以平均值为界分为两类；对于非数值型属性，每个唯一值成为一个类别。递归地对子树进行划分，直到满足停止条件，如属性耗尽、样例数量为零或正负样本比例达到阈值。 - 属性选择：选择包括年龄(age)、持续时间(duration)、营销活动(campaign)、上次联系天数(pdays)等在内的数值型和非数值型属性作为分类依据。 - 数据集选择与复杂度分析：决策树的时间复杂度取决于遍历属性和样例的数量，总体时间复杂度较低，因此适用于处理完整数据集。 - 正负例平衡：决策树通常容易受类别不平衡影响，当子树中的所有样例属于同一类别时停止划分，这可能导致模型偏向于多数类。 4. 其他分类方法： - 朴素贝叶斯分类：基于特征之间的独立性假设，通过计算每个类别的先验概率和每个特征在各类别下的条件概率来进行预测。 - 逻辑回归分类：适用于二分类问题，通过构建Sigmoid函数拟合数据，预测事件发生的概率。 5. 四种分类方法比较：比较点主要集中在适用范围、准确度和真阳率。例如，决策树易于理解但可能过拟合；朴素贝叶斯假设可能不成立，但计算高效；逻辑回归对线性可分问题表现良好，但对非线性问题可能不足。综上，这个作业旨在通过不同分类算法的应用和对比，让学生深入理解各种模型的优缺点，并在特定业务场景下优化模型性能，特别是在提高潜在购买者识别率方面的策略。

数据仓库大作业二

一、银行直销数据分类

1.作业要求

根据银行客户的属性判断客户是否会订阅某项定期存款业务，不限定分类

算法，要求至少实现两种算法，并且对于算法精度进行分析比较

2.分类评价方法

实际预测

如图所示，分别统计四种分类结果，并做如下整理：

考虑到本次分类的情景，为了尽可能多的找到购买服务的客户，应当在保

证准确率的同时，尽可能增加真阳率，也就是增加类别为真的预测个数，甚至

可以牺牲部分准确率来提高真阳率

3.实验环境

操作系统：Windows10 专业版 64位

处理器：Intel(R) Core(TM) i7-8700 @3.2GHZ

内存：16G

编程语言：Python 3.7

4.决策树分类

1）算法描述

下载后可阅读完整内容，剩余7页未读，立即下载

王向庄

粉丝: 25
资源: 344

银行直销数据分类分析：决策树与对比

python实现的数据仓库与数据挖掘大作业 频繁模式挖掘源代码+文档说明+报告pdf

数据仓库与大数据工程作业一

数据仓库大作业--频繁模式挖掘1

重庆大学 数据挖掘与数据仓库课程作业 数据仓库及其数据挖掘技术 共17页.ppt

数据仓库课程作业21

重庆大学 数据挖掘与数据仓库课程作业 基于文本评论数据挖掘的数据仓库构建 共18页.ppt

重庆大学 数据挖掘与数据仓库课程作业 数据仓库在股票中的应用 共20页.pptx

重庆大学 数据挖掘与数据仓库课程作业 银行存款业务的数据仓库设计 共12页.ppt

重庆大学 数据挖掘与数据仓库课程作业 公交车站间行程时间数据仓库的建立与分析 共10页.pptx

重庆大学 数据挖掘与数据仓库课程作业 数据仓库(DW)的建立-车辆制造商销售分析实例分析 共19页.ppt

最新资源

python实现的数据仓库与数据挖掘大作业频繁模式挖掘源代码+文档说明+报告pdf

重庆大学数据挖掘与数据仓库课程作业数据仓库及其数据挖掘技术共17页.ppt

重庆大学数据挖掘与数据仓库课程作业基于文本评论数据挖掘的数据仓库构建共18页.ppt

重庆大学数据挖掘与数据仓库课程作业数据仓库在股票中的应用共20页.pptx

重庆大学数据挖掘与数据仓库课程作业银行存款业务的数据仓库设计共12页.ppt

重庆大学数据挖掘与数据仓库课程作业公交车站间行程时间数据仓库的建立与分析共10页.pptx

重庆大学数据挖掘与数据仓库课程作业数据仓库(DW)的建立-车辆制造商销售分析实例分析共19页.ppt