爬取B站1907条课程数据，洞察大学生最爱的学习资源

版权申诉

10 浏览量更新于2024-07-08 收藏 419KB PDF 举报

"爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐。本文主要介绍了如何使用Python的Scrapy框架爬取B站（哔哩哔哩）上的大学课程数据，包括视频标题、链接、观看量、弹幕数、上传时间和作者等信息，并对数据进行分析，以揭示最受欢迎的学习资源类型。" 本文首先介绍了爬虫项目的目的，即通过爬取B站上的课程学习数据，了解大学生群体中最受欢迎的学习资源。为了达到这个目的，作者使用了Python的Scrapy框架，这是一个强大的网页爬虫框架，适合处理复杂的爬取任务。在数据获取部分，作者提到了Scrapy的items文件，这是定义要爬取的数据结构的地方。在这个项目的items文件中，创建了一个名为`BiliItem`的类，包含了五个字段：`title`（视频标题）、`url`（链接）、`watchnum`（观看量）、`dm`（弹幕数）和`uptime`（上传时间）。此外，还新增了一个`upname`字段来存储视频的作者信息。这些字段定义了爬虫需要抓取的每条数据的关键元素。接着，文章提到了Scrapy的spider文件，这里定义了一个名为`LycSpider`的爬虫类。该类指定了爬虫的名称、允许的域名以及起始URL，也就是要爬取的B站搜索页面。`parse`方法是Scrapy爬虫的默认回调函数，当爬虫访问到一个页面时，会调用这个方法来解析页面内容。在`parse`方法中，作者使用了XPath表达式来定位HTML元素，提取出每个课程条目的相关信息，并将其填充到`BiliItem`实例中。爬取的1907条数据涵盖了多页的搜索结果，通过分析这些数据，可以得出关于大学生最喜欢的学习资源类型的各种统计信息。例如，可以计算各类课程的平均观看量和弹幕数，找出最受欢迎的课程类别。同时，通过对上传时间的分析，还可以了解到不同时间段内课程热度的变化趋势。在数据处理和分析阶段，通常会使用Python的数据分析库如Pandas进行数据清洗和整理，然后可能结合Matplotlib或Seaborn等库进行数据可视化，以直观地展示结果。例如，可以通过条形图展示各类课程的观看量分布，或者用折线图表示不同时间段的观看趋势。最后，文章提到提供了Python学习资料和交流平台，方便读者进一步学习Python爬虫技术和数据分析知识，增强实践能力。总结来说，本文介绍了一个基于Scrapy的B站课程数据爬取项目，不仅展示了如何使用Scrapy框架进行网络爬虫开发，还探讨了如何分析爬取的数据以洞察大学生偏好的学习资源，对于学习和研究Web爬虫技术及数据分析有很好的参考价值。

new_link = url[0:-1]+str(int(url[-1])+1)

# 再次发送请求获取下一页数据

yield scrapy.Request(new_link, callback=self.parse)

为新增的四个字段进行网页标签解析

pipelines 文件

import csv

class BiliPipeline:

def __init__(self):

#打开文件，指定方式为写，利用第 3 个参数把 csv 写数据时产生的空

行消除

self.f = open("lyc 大学课程.csv", "a", newline="")

# 设置文件第一行的字段名，注意要跟 spider 传过来的字典 key 名称

相同

self.fieldnames = ["title",

"url","watchnum","dm","uptime","upname"]

# 指定文件的写入方式为 csv 字典写入，参数 1 为指定具体文件，参

数 2 为指定字段名

self.writer = csv.DictWriter(self.f,

fieldnames=self.fieldnames)

# 写入第一行字段名，因为只要写入一次，所以文件放在__init__里

面

self.writer.writeheader()

def process_item(self, item, spider):

# print("title:", item['title'][0])

# print("url:", item['url'][0])

# print("watchnum:",

item['watchnum'][0].replace("\n","").replace(" ",""))

# print("dm:", item['dm'][0].replace("\n", "").replace(" ",

""))

# print("uptime:", item['uptime'][0].replace("\n",

"").replace(" ", ""))

# print("upname:", item['upname'][0])

print("title:", item['title'])

print("url:", item['url'])

print("watchnum:", item['watchnum'])

print("dm:", item['dm'])

print("uptime:", item['uptime'])

剩余14页未读，继续阅读

一诺网络技术

粉丝: 0
资源: 2万+

爬取B站1907条课程数据，洞察大学生最爱的学习资源

Python数据爬取分析课程设计项目源码及资料

Python爬取豆瓣电影TOP250数据分析教程

Python网络爬虫课程大作业：天气数据爬取与可视化分析

爬取中国大学MOOC课程数据.pdf

当当网图书信息爬取与数据分析.pdf

数据爬取资源分析应用数据整合

基于招聘信息爬取数据利用Python进行数据分析及可视化分析源码.zip

数据爬取+数据分析实例对应资源

基于Python的合肥市二手房信息爬取与数据分析.pdf

Python实现美食数据爬取+数据分析+数据可视化.zip

最新资源