基于大数据平台股评文本挖掘毕业设计研究

需积分: 13 182 浏览量更新于2024-12-21 收藏 4.16MB ZIP 举报

资源摘要信息:"基于大数据平台的股评信息文本挖掘研究" 本毕业设计项目是一个关于如何利用大数据技术对股评信息进行文本挖掘的研究课题。项目的目标是建立一个系统架构，通过爬虫技术获取股评数据，利用大数据处理平台进行数据处理和分析，最终实现对股评信息的有效挖掘和评估。 1. 系统架构与技术栈 - MySQL数据库（IP地址：120.79.24.24）：用于存储爬取到的股评数据。 - Kafka消息队列（IP地址：47.106.142.94）：作为消息中间件，负责接收爬虫模块发送的数据，并为后续模块提供数据流。 - Spark Streaming（IP地址：47.106.106.207）：用于实时处理从Kafka接收到的股评信息流，实现数据的实时分词。 2. 功能模块 - get_data模块：负责爬取股评信息并存储到MySQL数据库中，同时将数据发送到Kafka队列中供后续处理。 - analyse模块：通过两个阶段对分词结果进行筛选，首先是使用词性模板过滤掉无关词汇，然后利用PMI-IR（Pointwise Mutual Information-Information Retrieval）算法对关键词进行筛选和评估。 - streaming_cut_term模块：由Scala编写的Spark Streaming应用程序，实时从Kafka获取消息并进行分词处理，分词结果存储回MySQL数据库。 - term_score模块：对分词后的关键词进行打分，评估其重要性和相关性。 3. 系统打包与运行 - 程序最终被打包成一个jar文件，部署在Linux环境下运行。 - 可以使用Apache NiFi（一个易于使用、可扩展和可靠的系统）来读取CSV文件，并将数据导入到MySQL、Hive等存储系统中。 4. 主要技术点 - MySQL：一种广泛使用的开源关系型数据库管理系统，用于数据存储和检索。 - Kafka：由LinkedIn公司开发的分布式流处理平台，它主要用于构建实时数据管道和流式应用程序。 - Spark Streaming：Apache Spark的一个组件，用于处理实时数据流。 - Scala：一种多范式的编程语言，特别适合进行大数据处理。 - PMI-IR：一种统计学上的概念，用于评估词汇间的相互信息量，常用于文本挖掘和搜索引擎优化中。 - NiFi：一个易于安装和使用的数据流处理和分布式数据路由的工具，支持数据的可视化、管理和自动化。 5. 标签与项目结构 - Java：本项目的开发语言为Java，标签反映的是项目开发所依赖的编程语言环境。 6. 压缩包子文件的文件名称列表 - GraduationDesign-master：表示这是一个主分支的项目文件结构。通过本设计，可以为投资者提供基于大数据分析的股评信息，帮助他们更好地理解市场动态，预测股票趋势，并作出更明智的投资决策。项目在技术和应用层面均展现了大数据技术在金融领域文本挖掘上的实践价值。

收起资源包目录

GraduationDesign （92个子文件）

core-site.xml 959B

TermScore.java 2KB

信息科学与工程学院+信息与计算科学+蔡维+201410412201+基于大数据平台的股评信息文本挖掘研究.pdf 1.06MB

StockTermDaoImpl.java 1KB

default.dic 5.63MB

README.md 7KB

jdbc.properties 277B

5.png 5KB

StockTerm.java 2KB

pom.xml 4KB

StockScore.java 2KB

Comment.java 935B

StockTermDaoImpl.java 1KB

StockDaoImpl.java 2KB

CommentDaoImpl.java 1KB

ArtJsoup.java 4KB

4.png 134KB

StockScoreDaoImpl.java 1KB

StockDaoImpl.java 2KB

jdbc.properties 272B

TermScoreJob.java 2KB

TermUtil.java 2KB

userLibrary.dic 80KB

StockTerm.java 2KB

ArtJsoup.java 2KB

PropertiesUtil.java 776B

系统架构图.jpg 69KB

ShellUtil.java 481B

TermUtil.java 2KB

pom.xml 2KB

ArticleJsoup.java 4KB

ArticleDaoImpl.java 2KB

JdbcUtil.java 2KB

library.properties 29B

sentence_nature.sql 2KB

JdbcUtil.java 2KB

AnalyseUtil.java 5KB

log4j.properties 2KB

ambiguity.dic 142B

PropertiesUtil.java 776B

log4j.properties 2KB

PropertiesUtil.java 2KB

StockDaoImpl.java 2KB

Test1.java 494B

terms.properties 494B

信息科学与工程学院+信息与计算科学+蔡维+201410412201+基于大数据平台的股评信息文本挖掘研究.docx 486KB

2.png 3KB

pom.xml 6KB

jdbc.properties 272B

pom.xml 3KB

DateUtil.java 2KB

GenerateData.java 2KB

statistical_analysis.sql 2KB

JsoupUtil.java 2KB

Article.java 1KB

1.png 3KB

log4j.properties 2KB

CutTerm.java 1KB

StockTermDaoImpl.java 1KB

StockTermDaoImpl.java 3KB

Comment.java 1KB

producer.properties 675B

FileUtil.java 2KB

KafkaUtil.java 855B

hdfs-site.xml 1KB

jdbc.properties 272B

JdbcUtil.java 2KB

pom.xml 2KB

JdbcUtil.java 2KB

jdbc.properties 272B

ArticleJsoup2.java 3KB

GetData.java 1KB

基于用户评论挖掘的产品推荐算法_扈中凯_2013.pdf 539KB

HdfsUtil.java 2KB

isAttr.png 12KB

StockTerm.java 2KB

TermScoreDaoImpl.java 2KB

FileUtil.java 1KB

系统架构.eddx 13KB

Dame2.java 3KB

ScreenTerm.java 2KB

GetData.java 3KB

log4j.properties 2KB

3.png 3KB

PMI-IR.png 11KB

SparkStreamingKafka.scala 3KB

AnalyseUtil.java 2KB

PropertiesUtil.java 2KB

ShellUtil.java 450B

JdbcUtil.java 2KB

共 92 条

RosieLau

粉丝: 48
资源: 4582

基于大数据平台股评文本挖掘毕业设计研究

"医院病历管理系统设计与实现" GraduationDesign论文.docx

高校缴费管理系统毕业设计源码

MATLAB毕业设计：扩频技术的应用与源码实现

GraduationDesign:不

GraduationDesign:毕业设计

电子-graduationdesign.rar

GraduationDesign:2015年本科毕业设计

GraduationDesign_EvaluationSystem:学生专业能力评估系统

安卓java读取网页源码-GraduationDesign:毕业设计

java课程设计毕业设计选题系统GraduationDesign.zip

最新资源