大数据导论:B站热门视频标签分析

需积分: 10 1 下载量 134 浏览量 更新于2024-08-05 收藏 652KB DOCX 举报
"大数据导论课程结课PPT" 本课程报告主要围绕大数据导论这一主题,由学生袁启辉、徐梁津完成,指导教师为王蔚,属于计算机科学与技术学院CS2006班级的学习成果。报告日期为2021年12月13日,内容涉及爬取、存储和分析哔哩哔哩(B站)热门视频标签相关数据。 测试环境说明: 课程项目使用了一台运行Windows 10的物理机,配备AMDRyzen5 4600H处理器和16GB RAM,采用64位操作系统。数据分析工具选用的是Tableau,用于数据的可视化呈现。 数据集特征说明: 原始数据未经清洗时为11.2GB,清洗后减小至9.6GB。数据来源于使用爬虫程序通过B站网页和API接口收集的视频信息,包括播放数、点赞、投币、收藏数和弹幕等关键指标。 测试应用说明: 在数据处理和分析过程中,使用了Visual Studio Code进行Python编程,并利用jieba分词库对文本数据进行处理。jieba分词提供了全模式、精确模式和搜索引擎模式三种分词方式,满足不同需求。Python的matplotlib和Wordcloud库则用于生成词云图,进一步展现标签数据的特点。最后,Tableau被用来对清洗后的数据进行度量转换和多维度的可视化展示,以深入理解数据内涵。 研究目的及意义: 该研究旨在探索B站热门视频标签的数据特性,了解用户行为和偏好,这有助于理解视频内容的流行趋势,对内容创作者、平台管理者以及市场研究人员具有实际价值。通过对这些数据的分析,可以洞察用户的兴趣变化,预测潜在的热门话题,同时也可以评估不同视频元素(如标签)对视频成功的影响程度。 挑战与心得: 在项目实施过程中,可能遇到的挑战包括数据清洗的复杂性、分词准确性的控制以及如何有效地利用Tableau进行复杂数据的可视化。通过此项目,学生不仅掌握了大数据处理的基本技能,还学会了如何运用这些工具解决实际问题,提升了数据分析和解读能力,对大数据领域有了更深入的理解。