疫情期间舆论分析：新浪新闻与B站弹幕的情感研究

版权申诉

149 浏览量更新于2024-10-31 收藏 132KB ZIP 举报

项目分为数据爬取、数据预处理、情感分析等关键步骤。涉及到的具体技术包括Python编程、网页结构分析、API接口数据获取、文本清洗、中文分词和词性标注，以及情感分析等。" 知识点一：数据爬取在数据爬取阶段，项目主要采用Python编程语言及其第三方库来实现数据的自动化获取。对于新浪新闻评论的爬取，项目使用requests库来发送网络请求，BeautifulSoup库来解析HTML页面结构，或者使用Scrapy框架来快速构建爬虫。在分析新浪新闻的网页结构后，通过编写代码来爬取指定时间段内的疫情相关新闻评论数据。为保证数据的存储，一般会选择将这些数据保存在本地数据库如MySQL或MongoDB中，或者以CSV格式存储。对于B站弹幕数据的爬取，项目同样采用requests库来获取数据，通常通过模拟浏览器访问的方式，获取B站的API接口信息。通过API接口，项目可以获取与疫情相关的健康科普类视频的弹幕数据。这些数据的存储方式与新浪新闻评论相同。知识点二：数据预处理数据预处理阶段的目的是将爬取的原始数据转换成可用于后续分析的格式。文本清洗工作包括去除HTML标签、特殊字符、URL链接等噪声数据，以及将文本统一转换为小写或特定的编码格式。此外，还需要处理文本中的错别字、缩写词、网络用语等现象，确保数据质量。分词与词性标注是中文处理的重要步骤。使用中文分词工具（例如jieba）对评论和弹幕进行分词处理，将连续的文本拆分为有意义的词序列。词性标注则是给这些词序列中的每个词分配一个词性（名词、动词、形容词等），有助于后续进行更深层次的文本分析，如情感分析和主题识别。知识点三：情感分析情感分析部分是利用NLP技术来探究文本的情感倾向，即文本是表达正面情感、负面情感还是中性。项目可能采用了基于情感词典的方法，这涉及到一个预定义好的情感词典，其中包含了大量的情感词和对应的情感极性（正、负或中性）。通过比对文本中的词汇与情感词典，可以对整个评论或弹幕的情感倾向进行评分。除了情感词典方法，还可以使用机器学习算法，如支持向量机（SVM）、随机森林（Random Forest）等，构建情感分类模型。该模型在带有标注数据集上进行训练，学会如何自动识别新的文本数据中的情感倾向。总结来说，本项目利用Python、NLP技术和机器学习算法对疫情期间网络平台上的社会舆论进行了全面的数据爬取、预处理和情感分析工作，为理解疫情期间社会舆论提供了有力的技术支持。

资源目录

收起资源包目录

疫情期间舆论分析：新浪新闻与B站弹幕的情感研究（40个子文件）

modules.xml 264B

代码分析.md 252B

misc.xml 185B

test.py 1KB

image-20210119223019946.png 18KB

nlp_test.py 2KB

ParseNews.py 14KB

test.py 6KB

README.md 315B

image-20210119174014054.png 4KB

image-20210119223728526.png 3KB

markdown-navigator-enh.xml 4KB

data_filter.py 7KB

baidu_stopwords.txt 9KB

image-20210119223044549.png 3KB

代码结构.png 3KB

数据科学大作业-源码分析.md 9KB

charts.py 2KB

image-20210119222820365.png 6KB

image-20210119223712935.png 2KB

markdown-navigator.xml 3KB

image-20210119223143176.png 3KB

nlp.py 8KB

scu_stopwords.txt 7KB

article.py 621B

sina_crawler.py 7KB

image-20210119223409484.png 2KB

hit_stopwords.txt 5KB

WordMap.py 6KB

bilibili_crawler.py 9KB

image-20210119223432546.png 21KB

项目.iml 467B

cn_stopwords.txt 5KB

encodings.xml 860B

workspace.xml 8KB

image-20210119223308316.png 3KB

profiles_settings.xml 174B

image-20210119222637859.png 16KB

image-20210119222750738.png 8KB

curvefit.py 1KB

共 40 条

生瓜蛋子

粉丝: 3956

疫情期间舆论分析：新浪新闻与B站弹幕的情感研究

《庆余年2》弹幕爬取，并进行情感分析

爬取微博评论爬取热门微博评论并进行数据分析、nlp情感分析 xuenlp.py功能包含：

Python应用实战代码-爬取综艺《哈哈哈哈哈》弹幕做情感分析

基于Python的数据爬取及其可视化豆瓣评论.zip

基于Python的疫情大数据分析源码+项目说明（AI和NLP应用等）.zip

python主题爬虫爬取与主题词相关的新浪新闻网页 .rar

高分毕业设计 基于Python+OpenCV+NLP+的语义消歧的商品评论的爬取与分析可视化系统源码+部署文档+全部数据资料

weibo-comment-crawler-master_爬取微博评论_微博分析_评论情感分析

爬取上市公司历史新闻数据的文本分析研究

丁香园疫情数据爬取与新冠病毒溯源策略分析

最新资源

高分毕业设计基于Python+OpenCV+NLP+的语义消歧的商品评论的爬取与分析可视化系统源码+部署文档+全部数据资料