自动化爬取豆瓣Top250电影信息与海报

5星 · 超过95%的资源 28 浏览量更新于2024-08-29 收藏 129KB PDF 举报

本篇文章主要介绍了如何编写一个Python脚本来爬取豆瓣Top250电影的相关信息，并下载电影海报。该爬虫分为三个步骤： 1. **创建文件夹**：在D盘根目录下创建了一个名为"D://豆瓣top250"的文件夹，然后使用`for`循环遍历250个电影ID。对于每一个ID，程序会生成一个新的子文件夹，文件夹名格式为"D://豆瓣top250/1", "D://豆瓣top250/2"等，直到第250个。使用`os.path.exists()`检查文件夹是否存在，如果不存在则调用`os.mkdir()`创建，如果已存在则打印提示。 2. **访问网站并获取HTML文本**：通过定义`getHTMLText(url)`函数，利用requests库向豆瓣电影Top250的页面发送GET请求，设置超时时间和头部信息。尝试获取响应并解析HTML内容。如果请求过程中出现异常，返回错误信息。 3. **爬取和保存信息**： `getInfo(url)`函数负责提取电影信息。首先，通过XPath表达式从HTML中抓取电影名称。接着，使用XPath选择器找到包含导演、演员、上映时间、制片国家和类型的`div[@class="bd"]/p[1]`元素，并尝试获取其中的文本数据。对于可能存在的多对导演和主演信息，使用Python字典的索引操作，如`directorandStar=info["director"]`来处理。这些信息将被分别提取并保存到对应的电影文件夹内的文本文件中。整个流程旨在自动化获取豆瓣Top250电影列表中的关键信息，并组织成易于管理的文件结构，以便后续分析或进一步处理。通过这个爬虫，学习者可以了解HTTP请求、HTML解析、文件系统操作以及Python数据处理的基本概念。同时，它也展示了在实际项目中如何优雅地处理网络请求异常和文件管理。

豆瓣豆瓣Top250电影信息海报爬虫电影信息海报爬虫

前些时候老师布置了一个小作业，让爬取豆瓣top250电影的相关信息，把每一部电影的信息以txt文本保存，并下载电影海报

图片，一部电影创建一个文件夹。

代码编写分为如下几步

1.创建文件夹（我是在D盘先创建了一个文件夹）

print("开始创建文件夹……")

for r in range(250):

v_foleder="D://豆瓣top250"

Vname_list=os.listdir(v_foleder)

# 指定路径创建新文件夹

file_path='D://豆瓣top250'+"//"+str(r+1)

r=r+1

if not os.path.exists(file_path): # 判断文件夹是否已经存在

os.mkdir(file_path)

else:

print(file_path + ' 目录已存在')

print("创建文件夹完成")

2.访问网站

def getHTMLText(url):

try:

r = requests.get(url,headers=headers,timeout=30)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return '产生异常'

3.爬取文本信息并保存到相应文件夹

def getInfo(url):

html = requests.get(url, headers=headers, timeout=30)

# print(html.status_code)

root = etree.HTML(html.content)

for InformationBlock in root.xpath('//div[@class="info"]'):

# 影片名称

title = InformationBlock.xpath('div[@class="hd"]/a/span[@class="title"]/text()')[0] # print(title)

块，导演、演员、上映时间、制片国家、影片类型在一个

里

info = InformationBlock.xpath('div[@class="bd"]/p[1]/text()')

# print(type(info))

# 导演和主演

try:

directorandStar = info[0].replace(" ", "").replace("", "").replace(".","").split("/")[0] except:

directorandStar = " "

# 上映日期

date ="上映日期："+ info[1].replace(" ", "").replace("", "").split("/")[0]

# 制片国家

country ="制片国家："+ info[1].replace("", "").replace("", "").split("/")[1]

# 影片类型

geners ="影片类型："+ info[1].replace("", "").replace("", "").split("/")[2]

# 评分

rate = "评分："+InformationBlock.xpath('div[@class="bd"]/div/span[2]/text()')[0]

# 评论人数

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38644097

粉丝: 4
资源: 923

自动化爬取豆瓣Top250电影信息与海报

爬虫-爬取豆瓣2019电影排行榜的信息，不是top250那个。

批量下载豆瓣电影TOP250（测试可以爬）

pathon爬虫-豆瓣电影TOP250_handle8tt_爬虫_爬虫电影_pathon_

python+pyqt5实现的电影搜索，含豆瓣影片信息及海报爬虫

Python爬虫实战：抓取豆瓣Top250电影信息

Python爬虫解析豆瓣Top250电影数据

Python实现：爬取豆瓣电影Top250海报与信息

基于Python和PyQt5的豆瓣电影搜索与海报爬虫工具

如何设计一个Python爬虫脚本，自动爬取豆瓣Top250电影的详细信息和海报，并将爬取结果按照电影分类保存到本地文件夹？

Python爬虫豆瓣电影海报

最新资源