大数据导论:B站热门视频标签分析
需积分: 10 134 浏览量
更新于2024-08-05
收藏 652KB DOCX 举报
"大数据导论课程结课PPT"
本课程报告主要围绕大数据导论这一主题,由学生袁启辉、徐梁津完成,指导教师为王蔚,属于计算机科学与技术学院CS2006班级的学习成果。报告日期为2021年12月13日,内容涉及爬取、存储和分析哔哩哔哩(B站)热门视频标签相关数据。
测试环境说明:
课程项目使用了一台运行Windows 10的物理机,配备AMDRyzen5 4600H处理器和16GB RAM,采用64位操作系统。数据分析工具选用的是Tableau,用于数据的可视化呈现。
数据集特征说明:
原始数据未经清洗时为11.2GB,清洗后减小至9.6GB。数据来源于使用爬虫程序通过B站网页和API接口收集的视频信息,包括播放数、点赞、投币、收藏数和弹幕等关键指标。
测试应用说明:
在数据处理和分析过程中,使用了Visual Studio Code进行Python编程,并利用jieba分词库对文本数据进行处理。jieba分词提供了全模式、精确模式和搜索引擎模式三种分词方式,满足不同需求。Python的matplotlib和Wordcloud库则用于生成词云图,进一步展现标签数据的特点。最后,Tableau被用来对清洗后的数据进行度量转换和多维度的可视化展示,以深入理解数据内涵。
研究目的及意义:
该研究旨在探索B站热门视频标签的数据特性,了解用户行为和偏好,这有助于理解视频内容的流行趋势,对内容创作者、平台管理者以及市场研究人员具有实际价值。通过对这些数据的分析,可以洞察用户的兴趣变化,预测潜在的热门话题,同时也可以评估不同视频元素(如标签)对视频成功的影响程度。
挑战与心得:
在项目实施过程中,可能遇到的挑战包括数据清洗的复杂性、分词准确性的控制以及如何有效地利用Tableau进行复杂数据的可视化。通过此项目,学生不仅掌握了大数据处理的基本技能,还学会了如何运用这些工具解决实际问题,提升了数据分析和解读能力,对大数据领域有了更深入的理解。
2022-02-13 上传
2021-09-25 上传
2022-02-27 上传
2023-09-10 上传
2023-06-08 上传
2023-08-02 上传
2023-05-19 上传
2023-12-02 上传
2023-05-05 上传
辉腾-T
- 粉丝: 0
- 资源: 5
最新资源
- emf37.github.io
- 提取均值信号特征的matlab代码-Chall_21_SUB_A5:Chall_21_SUB_A5
- ng-recipe:角度的食谱应用程序
- sift,单片机c语言实例-源码下载,c语言程序
- artoolkit-example-fucheng
- json-tools:前端开发工具
- -:源程序代码,网页源码,-源码程序
- 04_TCPFile.rar
- 凡诺企业网站管理系统PHP
- 事件
- ads-1,c语言中ascii码与源码,c语言程序
- lilURL网址缩短程序 v0.1.1
- module-ballerina-random:Ballerina随机库
- nova-map-marker-field:提供用于编辑纬度和经度坐标的可视界面
- Crawler-NotParallel:C语言非并行爬虫,爬取网页源代码并进行确定性自动机匹配和布隆过滤器去重
- 分析安装在Android上的程序的应用程序