2020 MathorCup大数据竞赛赛道A优秀论文:基站流量分类与特征提取
需积分: 0 83 浏览量
更新于2023-12-27
收藏 3.31MB PDF 举报
2020年MathorCup大数据竞赛赛道A优秀论文21在时间序列特征提取与分类方面取得了显著的成果。该论文团队编号335赛道(A)通过基于Kmeans和Kshape、LSTM和Cornish-Fisher展式的基站流量分类与阈值设定研究,实现了对相关小区的历史流量数据进行时间序列特征的提取并进行“小区”分类,并描述了每类的特点。
论文中提到,题目要求需要基于相关小区的历史流量数据提取时间序列数据特征进行“小区”分类,并描述每类的特点。但由于题目所提供的数据过于庞大,直接对原始数据进行清洗并在处理后的原始数据基础上进行数学建模会导致时间效率与处理机器性能的限制,因此该团队考虑随机抽取3万个小区作为训练测试样本集进行初步聚类分析,再基于改进的KNN算法将剩余样本小区归为与其距离最近的类别。
论文的聚类流程主要包括以下几步:第一步是对原始数据进行数据预处理,采取随机抽样获得测试用样本小区数据集;第二步利用tsfresh工具提取时间序列的统计特征、熵特征和分段特征等作为对应的特征向量进行聚类,得到特征向量F。同时,基于随机森林法对构成的特征向量各个特征之间的重要性进行分析;第三步根据轮廓系数和肘部法则获取最优聚类数,再利用kmeans方法进行基于特征向量的聚类分析。
该论文的创新之处在于通过对大量原始数据进行随机抽样的方式,避免了数据处理过程中的时间和性能限制问题。同时,基于tsfresh工具提取了多种时间序列特征,通过随机森林法对特征重要性进行分析,得到了更加全面的特征向量,为后续的聚类分析提供了更加可靠的数据基础。最终通过优化的KNN算法对剩余的样本小区进行了分类,实现了对所有小区的时间序列特征提取与分类。
总的来说,该论文在大数据竞赛赛道A上取得了显著的成就,为时间序列数据的特征提取与分类问题提供了一种新的解决思路,对于类似的大规模时间序列数据分析问题具有一定的借鉴意义。
2023-11-05 上传
2023-11-02 上传
2023-11-02 上传
2023-06-10 上传
2023-03-16 上传
2023-11-02 上传
2023-10-28 上传
BellWang
- 粉丝: 27
- 资源: 315
最新资源
- 新型智能电加热器:触摸感应与自动温控技术
- 社区物流信息管理系统的毕业设计实现
- VB门诊管理系统设计与实现(附论文与源代码)
- 剪叉式高空作业平台稳定性研究与创新设计
- DAMA CDGA考试必备:真题模拟及章节重点解析
- TaskExplorer:全新升级的系统监控与任务管理工具
- 新型碎纸机进纸间隙调整技术解析
- 有腿移动机器人动作教学与技术存储介质的研究
- 基于遗传算法优化的RBF神经网络分析工具
- Visual Basic入门教程完整版PDF下载
- 海洋岸滩保洁与垃圾清运服务招标文件公示
- 触摸屏测量仪器与粘度测定方法
- PSO多目标优化问题求解代码详解
- 有机硅组合物及差异剥离纸或膜技术分析
- Win10快速关机技巧:去除关机阻止功能
- 创新打印机设计:速释打印头与压纸辊安装拆卸便捷性