2020 MathorCup大数据竞赛赛道A优秀论文：基站流量分类与特征提取

需积分: 0 154 浏览量更新于2023-12-27 收藏 3.31MB PDF 举报

2020年MathorCup大数据竞赛赛道A优秀论文21在时间序列特征提取与分类方面取得了显著的成果。该论文团队编号335赛道（A）通过基于Kmeans和Kshape、LSTM和Cornish-Fisher展式的基站流量分类与阈值设定研究，实现了对相关小区的历史流量数据进行时间序列特征的提取并进行“小区”分类，并描述了每类的特点。论文中提到，题目要求需要基于相关小区的历史流量数据提取时间序列数据特征进行“小区”分类，并描述每类的特点。但由于题目所提供的数据过于庞大，直接对原始数据进行清洗并在处理后的原始数据基础上进行数学建模会导致时间效率与处理机器性能的限制，因此该团队考虑随机抽取3万个小区作为训练测试样本集进行初步聚类分析，再基于改进的KNN算法将剩余样本小区归为与其距离最近的类别。论文的聚类流程主要包括以下几步：第一步是对原始数据进行数据预处理，采取随机抽样获得测试用样本小区数据集；第二步利用tsfresh工具提取时间序列的统计特征、熵特征和分段特征等作为对应的特征向量进行聚类，得到特征向量F。同时，基于随机森林法对构成的特征向量各个特征之间的重要性进行分析；第三步根据轮廓系数和肘部法则获取最优聚类数，再利用kmeans方法进行基于特征向量的聚类分析。该论文的创新之处在于通过对大量原始数据进行随机抽样的方式，避免了数据处理过程中的时间和性能限制问题。同时，基于tsfresh工具提取了多种时间序列特征，通过随机森林法对特征重要性进行分析，得到了更加全面的特征向量，为后续的聚类分析提供了更加可靠的数据基础。最终通过优化的KNN算法对剩余的样本小区进行了分类，实现了对所有小区的时间序列特征提取与分类。总的来说，该论文在大数据竞赛赛道A上取得了显著的成就，为时间序列数据的特征提取与分类问题提供了一种新的解决思路，对于类似的大规模时间序列数据分析问题具有一定的借鉴意义。

第 6 页共 43 页

图 5.1 各小区样本数据量分布直方图

5.1.2 样本数据清洗

此外，可发现题目所给附件的数据量过于庞大。基于处理效率与机器运行性能的考

量，本文从所有小区中随机抽取 30000 个小区作为样本集进行特征提取和聚类分析。同

时，对其采取进一步的数据清洗与处理。针对随机抽取的 30000 个小区进一步的分析，

发现部分小区数据仍然存在较多缺失值，且不同小区缺失值存在的时间点不同。其中，

对于所有小区 4 月 15 号当天所有数据均缺失。基于同一小区在相邻日期内无显著差异

的假设，针对空缺值本文选用同一时刻相邻日期的流量均值来填补。对数据样本重复情

况进行统计分析可知，共有 23 个小区样本量大于 2000，通过 python 中 pandas 库自带

的函数删除重复值。对于异常值，删除后同样用同一时刻相邻日期的流量均值填补，数

据预处理流程图如图 5.2 所示。

图 5.2 数据预处理流程图

第 7 页共 43 页

5.2 基站一般分类与时间序列聚类

在一般的基站分类处理过程中，对于基站所属的类别往往是依靠其覆盖区域的主导

业务场景来决定的，例如，当商业中心、餐馆和街道等场景被同一个基站覆盖时，该基

站通常被归为商业中心。然而，对于传统的基站分类方法主要存在以下几个问题：首先，

对于基站覆盖区域内主要场景的判别需要依靠地图或者已有信息条件，在实际实现上具

有一定的困难度，尤其是对于大样本基站流量数据；其次，仅仅依靠场景去判别基站类

别完备性较低，因为基站覆盖范围内的场景是多样化的，无法有效地识别出其主要场景；

最后，即使业务场景是多种多样的，但是多样化的场景之间仍然具有一定的相似性，单

纯依靠场景的类别划分可能会影响基站的最终分类效果。而基于流量数据时间序列的聚

类只依赖于数据自身的信息，可以有效地避免上述问题。

时间序列聚类的方法主要有两种：一是针对时间序列数据的描述即时间域来进行聚

类分析，主要通过计算序列之间的距离来实现。而这更多地取决于序列的长短和聚类算

法。二是考虑将时间序列数据的性质变化问题转化为一个静态处理问题。例如：根据样

本数据的方差与均值将序列转化成具有二维属性的特征向量，再依据所获得的特征向量

对时间序列进行描述。这种表述方法既可以有效地提取数据特征又可以对时间序列起到

降维的效果。有鉴于此，本文选择基于基站流量数据的时间序列特征的聚类方法来对基

站进行分类研究。

5.3 基于 tsfresh 工具的特征提取

5.3.1 特征选择

针对基站流量数据的时间序列特征，本文主要考虑提取三大类数据特征，分别为时

间序列的统计特征、熵特征和分段特征。

(1) 时间序列的统计特征

本文参考已有研究文献内容后，主要考虑选取均值、方差、偏度与峰度作为时序特

征

[3]

，同时也包括序列数据的极值、中位数和标准差等。若将长度为 T 的时间序列数据

表示为 ,则上述统计量的公式分别为：

(5.1)

表示偏度，表示峰度。

(2) 时间序列的熵特征

熵作为描述一组数据的确定性和不确定性的指标，可以有效地说明系统地混乱性。

熵值越大数据越为混乱，熵值越小数据系统越为稳定。具体公式表示如下：

(5.2)

此外，时间序列熵的主要有分组熵(Binned Entropy)、样本熵(Sample Entropy)、近似

剩余44页未读，继续阅读

BellWang

粉丝: 28
资源: 315

2020 MathorCup大数据竞赛赛道A优秀论文：基站流量分类与特征提取

MathorCup大数据竞赛：历届优秀论文精选

2022年MathorCup大数据竞赛赛道B初赛解析

MathorCup 2020大数据竞赛题目与优秀论文解析

2020年MathorCup大数据竞赛赛道A优秀论文31

2020年MathorCup大数据竞赛赛道A优秀论文41

2020年MathorCup大数据竞赛赛道A优秀论文51

2020年MathorCup大数据竞赛赛道A优秀论文11

2020年MathorCup大数据竞赛赛道B优秀论文21

2020年MathorCup大数据竞赛赛道B优秀论文31

2020年MathorCup大数据竞赛赛道B优秀论文41

最新资源