利用Scrapy 框架,爬取豆瓣电影票-天津城市网站中的全部电影列表,解析页面中关于电影的相关信息(电影名、电影 ID、电影演员、电影导演等)。目标网址为 https://movie.douban.com/cinema/nowplaying/tianjin/
时间: 2024-01-08 15:02:24 浏览: 133
你可以使用以下代码来利用Scrapy框架爬取豆瓣电影票-天津城市网站中的全部电影列表,并解析页面中关于电影的相关信息:
首先,在命令行中创建一个Scrapy项目:
```
scrapy startproject douban_movie
```
然后,进入项目目录:
```
cd douban_movie
```
创建一个名为`movies`的Spider:
```
scrapy genspider movies movie.douban.com
```
在生成的`movies.py`文件中,替换代码为以下内容:
```python
import scrapy
class MoviesSpider(scrapy.Spider):
name = 'movies'
allowed_domains = ['movie.douban.com']
start_urls = ['https://movie.douban.com/cinema/nowplaying/tianjin/']
def parse(self, response):
movie_list = response.xpath('//div[@id="nowplaying"]//li[@data-title]')
for movie in movie_list:
movie_info = {
'电影名': movie.xpath('./@data-title').get(),
'电影ID': movie.xpath('./@data-subject').get(),
'电影演员': movie.xpath('.//li[@class="actor"]/text()').get(),
'电影导演': movie.xpath('.//li[@class="director"]/text()').get()
}
yield movie_info
```
运行Spider并输出结果到文件:
```
scrapy crawl movies -o movies.json
```
以上代码会将电影的相关信息保存在名为`movies.json`的文件中。
请注意,为了运行该代码,你需要安装Scrapy和相关依赖。你可以使用以下命令进行安装:
```
pip install scrapy
```
希望这能帮助到你!如有任何问题,请随时提问。
阅读全文