首页 # 获取电影名称 title = item.find('div', attrs={'class': 'hd'}).find('a').text # 获取电影名称 title = title.split('/') name = '' for i in title: i = i.replace('\n', '').replace('\xa0', '') i = i.strip() name += i + '/'这是爬取豆瓣t205的数据代码，请帮我修改一下，比如在url为https://movie.douban.com/top250?start={}&filter=的网站爬取的信息为'肖申克的救赎'，而不是'肖申克的救赎/The Shawshank Redemption/月黑高飞(港)/刺激1995(台)'

# 获取电影名称 title = item.find('div', attrs={'class': 'hd'}).find('a').text # 获取电影名称 title = title.split('/') name = '' for i in title: i = i.replace('\n', '').replace('\xa0', '') i = i.strip() name += i + '/'这是爬取豆瓣t205的数据代码，请帮我修改一下，比如在url为https://movie.douban.com/top250?start={}&filter=的网站爬取的信息为'肖申克的救赎'，而不是'肖申克的救赎/The Shawshank Redemption/月黑高飞(港)/刺激1995(台)'

时间: 2024-01-17 08:04:07 浏览: 166

python-crawler-douban:豆瓣综合爬虫，使用 `Python-3.7 + Scrapy-1.5` 构建，含豆瓣电影、豆瓣读书、豆瓣音乐三类Top250内容爬取及短评爬取

python-crawler-douban 豆瓣综合掉，使用 Python-3.7 + Scrapy-1.5 构建。含豆瓣电影、豆瓣读书、豆瓣音乐三类Top250内容爬取及短评爬取。爬虫书籍信息 # 列表页URL结构 # https://book.douban.com/top250?start=0 # https://book.douban.com/top250?start=25 # 书籍页URL结构 # https://book.douban.com/subject/1770782/ # 采集字段封面、作者、出版社、出品方、原作者、译者、出版年、页数、定价、装帧、丛书、ISBN 综合评分、评价人数、评星比例、常用标签、在哪借这本书列表书评数据 # 书评页URL结构(分热门和最新，但实际数据是一致的，只是排序方式不同) # https://book.douban.com/subje

您可以通过修改获取电影名称的代码来获取您需要的信息，具体方法如下： ```python title = item.find('div', attrs={'class': 'hd'}).find('a').text # 获取电影名称 title = title.split('/')[0] # 只获取第一个/之前的部分 title = title.replace('\n', '').replace('\xa0', '').strip() # 去除空格和换行符 name = title # 将修改后的名称存储在变量name中 ``` 这样，您就可以获取到电影的名称为“肖申克的救赎”，而不是包含其他信息的完整标题。

阅读全文