大数据并行聚类算法在股票板块划分中的应用与比较

79 浏览量更新于2024-08-29 收藏 1.1MB PDF 举报

"面向大数据的并行聚类算法在股票板块划分中的应用" 本文探讨了如何利用大数据处理技术来优化股票板块划分的过程。股票板块是指在证券市场上，具有相似特征或业务性质的公司股票集合。通过对上市公司的财务指标进行分析，可以更准确地评估股票的投资价值。在这篇文章中，研究者选取了反映上市公司盈利能力、偿债能力、成长能力、资产管理质量和股东获利能力等五个关键方面的15项财务指标，以此作为衡量股票投资价值的基础。为了处理海量的股票数据，研究者采用了面向大数据的并行聚类算法，具体选择了Apache Mahout库中的K-means聚类算法和模糊K-means聚类算法。这两种算法都是常见的无监督学习方法，用于将数据集分成不同的组（即聚类），使得同一组内的数据点相互之间相似，而不同组的数据点差异较大。 K-means算法是一种迭代的中心点方法，它通过不断调整数据点到聚类中心的距离来优化聚类效果。而模糊K-means则允许数据点同时属于多个聚类，提供了一种更为灵活的聚类边界处理方式。在实际应用中，选择哪种算法以及如何度量距离是至关重要的。在本次研究中，研究者对比了两种算法在不同的距离度量方式下的性能，如欧几里得距离、曼哈顿距离和谷本距离。结果显示，谷本距离度量下的K-means算法在迭代次数、执行时间、聚类间密度和聚类内密度等方面表现最优。谷本距离是一种综合考虑了数据点之间的相对差异和绝对差异的距离度量方法，尤其适用于处理含有负值的数据。通过对约2600支中国A股股票的聚类，研究者能够划分出不同的股票板块，这些板块反映出股票的共性和差异性，有助于投资者进行更有针对性的分析和决策。实验结果的应用不仅为投资者提供了参考，也为未来大数据在金融领域的应用提供了实践案例和理论支持。关键词：财务指标、并行聚类算法、K-means、模糊K-means、股票板块划分这篇文章展示了如何结合大数据技术和机器学习算法来提升股票投资分析的效率和精度，特别是在股票板块划分这一领域，为投资者提供了更为科学和系统的方法。通过并行计算和优化的距离度量方式，研究者能够处理大规模的股票数据，为金融市场的理解和决策提供强大工具。

TOPIC 专题

2015036-1

面向大数据的并行聚类算法

在股票板块划分中的应用

海　　　沫

１

，牛怡晗

２

，张悦今

１

1. 中央财经大学信息学院北京 100081；2. 上海浦东发展银行昆明分行昆明 650000

摘要

上市公司的经营业绩在一定程度上反映股票的投资价值，因此以反映上市公司盈利能力、偿债能力、成

长能力、资产管理质量及股东获利能力５个方面共１５项财务指标作为股票投资价值的衡量指标，首次尝

试使用面向大数据的并行聚类算法Ｍａｈｏｕｔ中的

Ｋ

－ｍｅａｎｓ聚类算法和模糊

Ｋ

－ｍｅａｎｓ聚类算法对中国Ａ股

市场约２　６００支股票依据其财务指标进行聚类，以便进行股票板块的划分，并比较两种算法在不同距离度量

方式下的迭代次数、执行时间、聚类间密度和聚类内密度。实验结果表明，谷本距离度量方式下的

Ｋ

－ｍｅａｎｓ

算法聚类效果最好，因此可将该实验结果作为最终股票板块划分结果进行分析，从而为投资决策提供参考。

关键词

财务指标；并行聚类算法；

Ｋ

－ｍｅａｎｓ；模糊

Ｋ

－ｍｅａｎｓ；股票板块划分

doi: 10.11959/j.issn.2096-0271.2015036

Application of Parallel Clustering Algorithms for

Big Data in the Division of Stock

Hai Mo

, Niu Yihan

, Zhang Yuejin

1.School of Information, Central University of Finance and Economics, Beijing 100081, China;

2. Kunming Branch, Shanghai Pudong Development Bank, Kunming 650000, China

Abstract

For the operating performance of listed corporations reflects the value of stock investment to a certain extent, financial

index reflecting the operating performance of listed corporations was taken as the evaluation index of stock investment

value, and for the first time the parallel clustering algorithms for big data both

-means and fuzzy

-means of Mahout

were used to cluster nearly 2 600 stock of China

’

s A shares market according to their financial index, afterwards the

clustering results of these two algorithms under different distance metrics were compared. Experimental results show

that the clustering quality of

-means algorithm adopting Tanimoto distance metric is the best. Therefore, this result can

be used as the final result of the division of stock, which can provide a reference for the investment decision.

Key words

inancial index, parallel clustering algorithm,

-means, fuzzy

-means, division of stock

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38519660

粉丝: 4
资源: 949

大数据并行聚类算法在股票板块划分中的应用与比较

聚类分析在股市中的应用

基于粒子群空间重组的大数据优化聚类算法

抽样改进加权核大数据谱聚类算法.pdf

适合大数据的聚类算法Mini Batch K-Means

大数据聚类算法具体是什么 其好处和应用到哪些方面

大数据spark聚类分析实验

聚类算法在隐私保护中的应用

层次聚类算法的数据集划分策略有哪些

聚类算法在自动驾驶中的应用

k-means聚类算法在租房推荐中的应用

最新资源

大数据聚类算法具体是什么其好处和应用到哪些方面