数据挖掘作业:数据预处理与标准化
需积分: 19 92 浏览量
更新于2024-07-24
收藏 585KB PDF 举报
"数据挖掘大作业答案"
在数据挖掘过程中,数据预处理是一个至关重要的步骤,其中包括数据转换,特别是归一化技术。归一化是将原始数据按比例缩放,使之落入一个特定的小范围,如[0, 1]或[-1, 1]之间。这有助于消除数据尺度差异,使得不同特征在同一水平上比较,提高算法的性能。本作业涉及到三种常见的归一化方法:最小-最大归一化、Z-分数归一化和小数定标归一化。
1. 最小-最大归一化 (Min-Max Normalization):
公式为:\( v' = \frac{v - min(A)}{max(A) - min(A)} \times (new\_max(A) - new\_min(A)) + new\_min(A) \)
在这个例子中,最小值 \( min(A) = 13 \),最大值 \( max(A) = 70 \),新的最小值和最大值通常设定为0和1。应用此公式,我们得到年龄为35的人的归一化值为0.386。
2. Z-分数归一化 (Z-Score Normalization):
公式为:\( v' = \frac{v - \mu(A)}{\sigma(A)} \)
其中,\( \mu(A) \) 是数据集A的平均值,\( \sigma(A) \) 是标准差。对于给定数据,平均年龄 \( \mu(A) = 29.96 \),标准差 \( \sigma(A) = 12.94 \)。应用这个公式,35岁的年龄归一化值为0.389。
3. 小数定标归一化 (Normalization by Decimal Scaling):
公式为:\( v' = \frac{v}{10^j} \),其中 \( j \) 是最小的整数,使得 \( |v'| < 1 \)。
对于35岁的年龄,经过计算得到 \( v' = 0.35 \),因此 \( j = 2 \)。
对于选择哪种方法,这里给出了对最小-最大归一化和Z-分数归一化的评论。最小-最大归一化可能会因为新插入的数据超出原属性范围而引发“越界”错误。而Z-分数归一化虽然考虑了数据的分布特性,但对异常值敏感。相比之下,小数定标归一化简单且不易受新数据的影响,因此更适用于这个例子。
在实际应用中,选择哪种归一化方法取决于具体任务的需求和数据的特性。例如,如果数据分布均匀,且没有极端值,Z-分数归一化可能更合适。而在数据范围广泛且有可能添加新数据的情况下,小数定标归一化可能是更好的选择。理解每种方法的优缺点,并根据实际情况进行选择是关键。
2021-11-28 上传
2022-04-07 上传
2010-03-08 上传
2022-11-19 上传
2011-04-20 上传
jarrywong
- 粉丝: 0
- 资源: 1
最新资源
- watch-party-server
- linux_tools:Linux命令行工具
- AMQPStorm-2.7.0-py2.py3-none-any.whl.zip
- 编码面试-pdf
- Drag'n'Drop Gallery-开源
- docutils-rest-writer:docutils 的 reStructuredText 编写器
- ops-challenge-301
- Test_BusStop
- 北方交通大学硕士研究生入学考试试题环境微生物学2005.rar
- c-y-a project manager-开源
- SDLgame:游戏
- AMD-2.4-py3-none-any.whl.zip
- openhack-repo
- pipelines:各种本地任务的bash脚本和管道
- photostoreDatabase:CS320 数据库项目
- IETI-Lab7