基于大数据平台股评文本挖掘毕业设计研究

需积分: 13 0 下载量 182 浏览量 更新于2024-12-21 收藏 4.16MB ZIP 举报
资源摘要信息:"基于大数据平台的股评信息文本挖掘研究" 本毕业设计项目是一个关于如何利用大数据技术对股评信息进行文本挖掘的研究课题。项目的目标是建立一个系统架构,通过爬虫技术获取股评数据,利用大数据处理平台进行数据处理和分析,最终实现对股评信息的有效挖掘和评估。 1. 系统架构与技术栈 - MySQL数据库(IP地址:120.79.24.24):用于存储爬取到的股评数据。 - Kafka消息队列(IP地址:47.106.142.94):作为消息中间件,负责接收爬虫模块发送的数据,并为后续模块提供数据流。 - Spark Streaming(IP地址:47.106.106.207):用于实时处理从Kafka接收到的股评信息流,实现数据的实时分词。 2. 功能模块 - get_data模块:负责爬取股评信息并存储到MySQL数据库中,同时将数据发送到Kafka队列中供后续处理。 - analyse模块:通过两个阶段对分词结果进行筛选,首先是使用词性模板过滤掉无关词汇,然后利用PMI-IR(Pointwise Mutual Information-Information Retrieval)算法对关键词进行筛选和评估。 - streaming_cut_term模块:由Scala编写的Spark Streaming应用程序,实时从Kafka获取消息并进行分词处理,分词结果存储回MySQL数据库。 - term_score模块:对分词后的关键词进行打分,评估其重要性和相关性。 3. 系统打包与运行 - 程序最终被打包成一个jar文件,部署在Linux环境下运行。 - 可以使用Apache NiFi(一个易于使用、可扩展和可靠的系统)来读取CSV文件,并将数据导入到MySQL、Hive等存储系统中。 4. 主要技术点 - MySQL:一种广泛使用的开源关系型数据库管理系统,用于数据存储和检索。 - Kafka:由LinkedIn公司开发的分布式流处理平台,它主要用于构建实时数据管道和流式应用程序。 - Spark Streaming:Apache Spark的一个组件,用于处理实时数据流。 - Scala:一种多范式的编程语言,特别适合进行大数据处理。 - PMI-IR:一种统计学上的概念,用于评估词汇间的相互信息量,常用于文本挖掘和搜索引擎优化中。 - NiFi:一个易于安装和使用的数据流处理和分布式数据路由的工具,支持数据的可视化、管理和自动化。 5. 标签与项目结构 - Java:本项目的开发语言为Java,标签反映的是项目开发所依赖的编程语言环境。 6. 压缩包子文件的文件名称列表 - GraduationDesign-master:表示这是一个主分支的项目文件结构。 通过本设计,可以为投资者提供基于大数据分析的股评信息,帮助他们更好地理解市场动态,预测股票趋势,并作出更明智的投资决策。项目在技术和应用层面均展现了大数据技术在金融领域文本挖掘上的实践价值。