pycharm构建scrapy爬取豆瓣
时间: 2023-08-01 13:08:59 浏览: 139
要在Pycharm中构建Scrapy爬取豆瓣的项目,可以按照以下步骤进行操作:
1. 在Pycharm的工作目录下创建一个新的项目文件夹。可以复制Pycharm的工作目录并在命令行中使用cd命令进入该目录。例如:cd C:\Users\Administrator\PycharmProjects
2. 在命令行中使用scrapy命令创建一个新的爬虫项目。例如:scrapy startproject nz_comments。这将在当前目录下创建一个名为nz_comments的爬虫项目。
3. 进入项目目录。在命令行中使用cd命令进入项目目录。例如:cd C:\Users\Administrator\PycharmProjects\nz_comments
4. 开启爬虫。在命令行中使用scrapy crawl命令启动爬虫。例如:scrapy crawl comment。这将执行名为comment的爬虫。
此外,你还可以创建一个main.py文件作为项目执行文件,以便在Pycharm中直接运行。以下是一个示例的main.py文件代码:
```python
#!/usr/bin/env python
# -*- encoding: utf-8 -*-
"""
@File : main
@Author : GrowingSnake
@Version : 1.0
@Desciption :
@Modify Time : 2021/6/8 17:22
"""
from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(\['scrapy', 'crawl', 'moviespider'\])
# Scrapy给出的将数据保存为json文件和csv文件的方式
# execute(\['scrapy', 'crawl', 'moviespider', '-o', 'moviespider.json'\])
# execute(\['scrapy', 'crawl', 'moviespider', '-o', 'moviespider.csv'\])
```
你可以将以上代码保存为main.py文件,并在Pycharm中直接运行该文件来启动爬虫。请确保将代码中的'comment'替换为你实际的爬虫名称。
#### 引用[.reference_title]
- *1* *2* [基于Scrapy框架的豆瓣影评及评分爬取](https://blog.csdn.net/Oh_science/article/details/111998293)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
- *3* [Scrapy爬取豆瓣电影top250数据并保存mysql/json/csv](https://blog.csdn.net/nc514819873/article/details/117918051)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文