南京大学数据科学大作业：Python爬虫筛选疫情相关微博

版权申诉

98 浏览量更新于2024-10-11 收藏 57.47MB ZIP 举报

资源摘要信息:"南京大学软件学院数据科学大作业-运用Python爬虫实现对多个重要媒体微博的爬取，并筛选出与疫情相关且热度较高的微博。本项目为数据科学领域的编程实践，主要使用Python语言及其相关库，如requests、beautifulsoup4、jieba等进行数据的抓取、解析和筛选。代码经过严格测试，确保功能性和稳定性，适合计算机专业学生、教师、企业员工以及编程初学者进行学习和实践。项目涉及的主要知识点包括： 1. Python编程基础：了解Python的基本语法和结构，掌握Python的基础编程技能，为后续的爬虫实践打下基础。 2. 网络爬虫技术：学习使用requests库进行网络请求，以及如何处理和解析HTML/XML等网页格式数据，实现网页内容的抓取。 3. 文本处理：使用jieba等分词库对抓取到的文本进行分词处理，以便进行后续的文本分析和筛选。 4. 数据筛选与分析：根据特定的业务需求（如本项目中筛选与疫情相关且热度高的微博），应用数据筛选和分析技术，提炼出有价值的信息。 5. 源码分析与修改：项目代码提供下载，用户可以学习项目源码的结构和逻辑，也可以在原有基础上进行修改，实现新的功能。 6. 项目文档的编写与使用：项目中包含README.md文件，描述了如何下载和运行项目，以及项目的基本使用方法，这对于学习如何编写项目文档和遵循软件开发的标准流程非常重要。此外，资源提供者还强调了版权和使用范围的问题。资源仅用于个人学习和研究，严禁用于商业目的。对于需要帮助的用户，资源提供者还提供了不懂运行时的私下提问和远程教学服务。文件名称“NJUSE-DataScience-main”暗示了这是一个以数据科学为主题的项目，包含了所有必要的文件和资源。用户在下载后应首先阅读README.md文件，以获取项目安装、运行和使用方法的指导。本项目不仅是一个学习工具，也可以作为学生、老师或企业员工在数据科学领域的实战演练，尤其适用于需要实现网络信息抓取和分析的场景。"

资源目录

收起资源包目录

南京大学数据科学大作业：Python爬虫筛选疫情相关微博（193个子文件）

info_parser.py 2KB

comment_renminribao.csv 2.32MB

76233b3f90394581aac6f19cfa5d674a610e8b442b1f83de7673ab49.html 4KB

test_index_parser.py 559B

spider.py 15KB

url_map.json 1KB

1.png 198KB

test_mblog_picAll_parser.py 610B

d486235d4a17dd0accb0f2cc77b3648abfa03580b9e0cdb61f1e618f.html 24KB

63a98849ec82b2c87ec55bca03cbf5988f7eac233a23d86b4fdf5ffd.html 9KB

weibo.py 989B

comment_yangshixinwen.csv 1.83MB

4d5ed0a3ebd0303cb45edd544dbc0ab5e86d43e103405f0c60515884.html 14KB

logging.conf 941B

test.json 6.87MB

yangshixinwen.json 4.67MB

mblog_picAll_parser.py 389B

__main__.py 158B

__init__.py 357B

draw.py 3KB

dataSelector.py 2KB

2803301701.csv 5.92MB

renminribao.json 6.09MB

test_info_parser.py 415B

setup.py 821B

三阶段.jpg 45KB

WeiboCommentScrapy.py 6KB

draw.py 3KB

json_writer.py 2KB

4957814af5a123b82e974b5537dea736dfb34e48d8835203a45d2e67.html 20KB

2803301701.json 9.11MB

mongo_writer.py 2KB

yangshixinwen.json 4.67MB

user.py 757B

result11.csv 1.02MB

Emotion_mapper.py 2KB

makewordcloud.py 1KB

test_page_parser.py 1KB

result.csv 1.04MB

dataSelector.py 2KB

draw.py 3KB

img_downloader.py 1KB

第四阶段心态分布.json 271B

2803301701.json 9.11MB

index_parser.py 2KB

2f62165fa3ca1e85e0d398d385c377a068b76eb95765f7020ffffd3e.html 20KB

1699432410.json 10.01MB

二阶段.jpg 43KB

sqlite_writer.py 4KB

util.py 399B

downloader.py 2KB

draw.py 5KB

WeiboCommentScrapy.py 6KB

总.jpg 48KB

1699432410.csv 6.99MB

kafka_writer.py 1KB

comment_parser.py 1KB

config_util.py 7KB

四阶段.jpg 47KB

人民日报.jpg 46KB

a4437630f3bdfa2757bae1595186ac063fe5ec25cf2f98116ece83cb.html 20KB

ca5f2a555e8d62f728c66fa90afb2d54d19f8c898e164204a61bdf03.html 6KB

2286908003.json 10.39MB

第一阶段心态分布.json 297B

TF_Calculator.py 4KB

csv_writer.py 2KB

writer.py 453B

Emotion Lexicon.csv 160KB

renminribao.json 6.09MB

dataSelector.py 2KB

README.md 369B

2656274875.json 7.1MB

drawlidar.py 3KB

人民网.csv 1.62MB

WeiboCommentScrapy.py 6KB

2286908003.csv 6.74MB

test.json 7.19MB

一阶段.jpg 42KB

新华社.csv 1.04MB

2656274875.csv 4.34MB

config_sample.json 753B

第三阶段心态分布.json 271B

2656274875.json 7.1MB

.gitignore 80B

第二阶段心态分布.json 296B

e97222acd5bc7d8d1bfbd3f352f8cad3e36fdd19e40b69e1c33fb3c3.html 4KB

page_parser.py 16KB

result.csv 1.64MB

txt_writer.py 2KB

qq_result.jpg 47KB

util.py 2KB

test_comment_parser.py 2KB

央视新闻.csv 1.83MB

datetime_util.py 259B

人民日报.csv 2.32MB

mysql_writer.py 5KB

draw.py 3KB

2803301701.json 9.11MB

video_downloader.py 599B

2656274875.json 7.1MB

共 193 条

机智的程序员zero

粉丝: 2458
资源: 4700

南京大学数据科学大作业：Python爬虫筛选疫情相关微博

最新资源