CNN模型与数据可视化:过采样误导下的深度学习探索

需积分: 0 0 下载量 181 浏览量 更新于2024-08-04 收藏 1.17MB DOCX 举报
在本篇内容中,作者探索了模型注解和数据可视化在IT领域中的应用,特别是针对随机森林算法和卷积神经网络(CNN)的模型构建。初始尝试使用随机森林算法进行预测并未成功,这促使作者转向更深层次的CNN模型。 在模型训练部分,作者使用Keras构建了一维卷积神经网络,包括20个卷积核,卷积步长为8,采用ReLU作为激活函数,并运用最大值池化来降低维度。CNN的训练过程涉及参数优化,通过前向传播和反向传播更新神经网络内的参数,使网络能够根据输入数据自动预测并逐渐提高准确性。数据预处理仅限于加窗处理,随后对1024帧数据进行划分,形成训练集、验证集和测试集,比例为3:6:1。模型在测试集上的表现优异,准确率达到100%。 可视化方面,作者借助sklearn库进行数据可视化,通过点状图和柱状图观察数据特性,发现不同类别间存在明显差异。然而,提琴图显示尽管类别间有显著的分布差异,但变化范围重叠,增加了预测的复杂性。初次尝试的随机森林算法因过采样导致训练集和测试集混淆,结果缺乏说服力。 作者意识到问题所在,通过调整训练集和测试集的选择,避免了过采样带来的偏差,重新聚焦于实际的特征提取和模型优化。最终,CNN模型的成功应用展示了在处理不平衡数据时,深度学习方法的优势,以及正确处理数据预处理和评估策略的重要性。这个案例强调了在机器学习项目中,细致的实验设计和数据理解对于取得可靠结果的关键作用。