2020 MathorCup大数据竞赛赛道A优秀论文:基站流量分类与特征提取

需积分: 0 4 下载量 154 浏览量 更新于2023-12-27 收藏 3.31MB PDF 举报
2020年MathorCup大数据竞赛赛道A优秀论文21在时间序列特征提取与分类方面取得了显著的成果。该论文团队编号335赛道(A)通过基于Kmeans和Kshape、LSTM和Cornish-Fisher展式的基站流量分类与阈值设定研究,实现了对相关小区的历史流量数据进行时间序列特征的提取并进行“小区”分类,并描述了每类的特点。 论文中提到,题目要求需要基于相关小区的历史流量数据提取时间序列数据特征进行“小区”分类,并描述每类的特点。但由于题目所提供的数据过于庞大,直接对原始数据进行清洗并在处理后的原始数据基础上进行数学建模会导致时间效率与处理机器性能的限制,因此该团队考虑随机抽取3万个小区作为训练测试样本集进行初步聚类分析,再基于改进的KNN算法将剩余样本小区归为与其距离最近的类别。 论文的聚类流程主要包括以下几步:第一步是对原始数据进行数据预处理,采取随机抽样获得测试用样本小区数据集;第二步利用tsfresh工具提取时间序列的统计特征、熵特征和分段特征等作为对应的特征向量进行聚类,得到特征向量F。同时,基于随机森林法对构成的特征向量各个特征之间的重要性进行分析;第三步根据轮廓系数和肘部法则获取最优聚类数,再利用kmeans方法进行基于特征向量的聚类分析。 该论文的创新之处在于通过对大量原始数据进行随机抽样的方式,避免了数据处理过程中的时间和性能限制问题。同时,基于tsfresh工具提取了多种时间序列特征,通过随机森林法对特征重要性进行分析,得到了更加全面的特征向量,为后续的聚类分析提供了更加可靠的数据基础。最终通过优化的KNN算法对剩余的样本小区进行了分类,实现了对所有小区的时间序列特征提取与分类。 总的来说,该论文在大数据竞赛赛道A上取得了显著的成就,为时间序列数据的特征提取与分类问题提供了一种新的解决思路,对于类似的大规模时间序列数据分析问题具有一定的借鉴意义。