请帮我完成scrapy下面的代码，要求能够在comments_url提供的url下进行循环并进行爬取，以下是我的代码 def parse_detail(self, response, **kwargs): movie_item = kwargs['item'] sel = Selector(response) movie_item['directors'] = sel.xpath('//a[@rel="v:directedBy"]/text()').extract() movie_item['casts'] = sel.xpath('//a[@rel="v:starring"]/text()').extract() movie_item['types'] = sel.css('span[property="v:genre"]::text').extract() movie_item['country'] = sel.css('span[property="v:initialReleaseDate"]::text').extract() movie_item['movie_time'] = sel.css('span[property="v:runtime"]::text').extract() comments = movie_item['url'] comment = "/comments?start=0&limit=20&status=P&sort=new_score" comments_url = comments + comment

时间: 2023-11-22 10:52:18 浏览: 96

以下是代码，可以在comments_url提供的url下进行循环并进行爬取： ``` def parse_detail(self, response, **kwargs): movie_item = kwargs['item'] sel = Selector(response) movie_item['directors'] = sel.xpath('//a[@rel="v:directedBy"]/text()').extract() movie_item['casts'] = sel.xpath('//a[@rel="v:starring"]/text()').extract() movie_item['types'] = sel.css('span[property="v:genre"]::text').extract() movie_item['country'] = sel.css('span[property="v:initialReleaseDate"]::text').extract() movie_item['movie_time'] = sel.css('span[property="v:runtime"]::text').extract() # 获取评论url comments = movie_item['url'] comment = "/comments?start={}&limit=20&status=P&sort=new_score" start = 0 while True: comments_url = comments + comment.format(start) yield scrapy.Request(comments_url, callback=self.parse_comments, meta={'item': movie_item}) start += 20 def parse_comments(self, response): movie_item = response.meta['item'] sel = Selector(response) comments = sel.css('div.comment-item') for comment in comments: commenter = comment.css('a[href^="https://www.douban.com/people/"]::text').extract_first() rating = comment.css('span.comment-info>span.rating::attr(title)').extract_first() content = comment.css('span.short::text').extract_first() time = comment.css('span.comment-time::text').extract_first() movie_item['comments'].append({'commenter': commenter, 'rating': rating, 'content': content, 'time': time}) yield movie_item ``` 在`parse_detail`函数中，我们使用一个while循环不断获取评论的url，其中start从0开始，每次增加20，直到获取不到评论为止。然后，我们使用scrapy.Request发送请求，将获取到的评论url传递给`parse_comments`函数进行解析，并将电影信息传递给meta参数。在`parse_comments`函数中，我们使用css选择器获取评论信息，并将其添加到电影信息的comments字段中，最后将电影信息yield出去。

阅读全文

相关推荐

scrapy&request_异步数据爬取_scrapy_

用Scrapy框架进行百度搜索并爬取搜索结果进行持久化

python爬取网易云音乐评论

使用requests框架爬取jd商品信息

【实战演练】爬虫项目实战：爬取电商网站商品信息并进行价格比较

网络爬虫框架Scrapy介绍与应用

【进阶篇】Scrapy框架高级用法与定制

使用scrapy框架爬取京东商城指定商品的评论信息（前50页评论）

Pycharm:输出该网站https://movie.douban.com/subject/35660795/comments?status=P，前20页的URL

简单的基于 Kotlin 和 JavaFX 实现的推箱子小游戏示例代码

基于simulink建立的PEMFC燃料电池机理模型（国外团队开发的，密歇根大学)，包含空压机模型，空气路，氢气路，电堆等模型 可以正常进行仿真

基于springboot的高校教学档案管理系统设计与实现源码（java毕业设计完整源码+LW）.zip

物流工厂往复式升降机2018可编辑全套技术资料100%好用.zip

基于USuperStar酒店管理系统（java web课程设计）、全部资料+详细文档+高分项目.zip

“社区管理数字化”：小区物业管理系统技术架构

【C语音期末/课程设计】银行存取款管理系统(DevC项目)

【雷达跟踪】基于matlab雷达信号目标运动轨迹跟踪（含距离和速度误差）【含Matlab源码 10015期】.zip

VBS超精品代码合集0606~0902chm版最新版本

基于改进A*算法融合DWA算法的机器人路径规划MATLAB仿真程序（含注释） 包含传统A*算法与改进A*算法性能对比?改进A*算法融合DWA算法规避未知障碍物仿真 改进A*算法做全局路径规划，融合动

大家在看

AGV硬件设计概述.pptx

hw1.rar_C++图像插值_二维插值_二维插值 C++_图像_最近邻插值

基于CDMA-TDOA的室内超声波定位系统 (2012年)

C# 使用Selenium模拟浏览器获取CSDN博客内容

ARINC664协议 EDE描述

最新推荐

python爬虫框架scrapy实战之爬取京东商城进阶篇

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

Python爬取数据并实现可视化代码解析

简单的基于 Kotlin 和 JavaFX 实现的推箱子小游戏示例代码

基于simulink建立的PEMFC燃料电池机理模型（国外团队开发的，密歇根大学)，包含空压机模型，空气路，氢气路，电堆等模型 可以正常进行仿真

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布

基于simulink建立的PEMFC燃料电池机理模型（国外团队开发的，密歇根大学)，包含空压机模型，空气路，氢气路，电堆等模型可以正常进行仿真

基于改进A算法融合DWA算法的机器人路径规划MATLAB仿真程序（含注释）包含传统A算法与改进A算法性能对比?改进A算法融合DWA算法规避未知障碍物仿真改进A*算法做全局路径规划，融合动

基于simulink建立的PEMFC燃料电池机理模型（国外团队开发的，密歇根大学)，包含空压机模型，空气路，氢气路，电堆等模型可以正常进行仿真