从命令提示符创建scrapy爬虫代码
时间: 2024-10-20 09:17:53 浏览: 18
scrapy爬虫框架的依赖库搭建和项目创建
在Windows的命令提示符环境下创建Scrapy爬虫,你需要首先安装Scrapy框架。如果你还没有安装,可以打开命令提示符并输入以下命令进行安装:
```bash
pip install scrapy
```
接着,你可以通过创建一个新的Scrapy项目开始编写爬虫。在命令行中,导航到你想要保存项目的文件夹,然后运行:
```bash
scrapy startproject my_crawler
```
这里`my_crawler`是你自定义的项目名,你可以替换为你喜欢的名称。
这将生成一个基本的Scrapy项目结构,包括一些关键的文件和目录。在`my_crawler`目录下,找到`spiders`文件夹,这是存放爬虫的地方。在该文件夹里新建一个Python文件,比如`example_spider.py`,然后添加基础的爬虫代码:
```python
# example_spider.py
import scrapy
class ExampleSpider(scrapy.Spider):
name = 'example'
start_urls = ['http://www.example.com']
def parse(self, response):
# 这里编写解析网页数据的逻辑
for item in response.css('your_css_selector'):
yield {
'title': item.css('h1::text').get(),
'description': item.css('p::text').get(),
}
```
在这个例子中,我们创建了一个名为`ExampleSpider`的爬虫,它会访问`http://www.example.com`,然后使用CSS选择器提取标题和描述。记得根据实际目标网站修改CSS选择器。
完成以上步骤后,你可以在命令行中启动爬虫,比如针对刚刚创建的爬虫:
```bash
scrapy crawl example
```
阅读全文