京东图书scrapy爬取
时间: 2023-10-07 10:11:35 浏览: 43
好的,您想了解关于使用Scrapy框架爬取京东图书的方法是吗?以下是简单的爬取示例:
1. 首先,您需要安装Scrapy框架。您可以使用以下命令安装:
```
pip install scrapy
```
2. 然后,创建一个Scrapy项目。您可以在终端中使用以下命令创建一个新的Scrapy项目:
```
scrapy startproject jingdong_book
```
3. 进入项目目录,然后创建一个新的Spider。您可以使用以下命令创建一个新的Spider:
```
scrapy genspider jingdong_book_spider book.jd.com
```
其中,jingdong_book_spider 是您的Spider名称,book.jd.com 是您要爬取的网站的域名。
4. 打开您的Spider文件(位于 spiders/jingdong_book_spider.py),然后添加以下内容:
```python
import scrapy
class JingDongBookSpider(scrapy.Spider):
name = "jingdong_book"
start_urls = [
'https://book.jd.com/booksort.html'
]
def parse(self, response):
for category in response.css('div.mc>dl>dt>a'):
yield response.follow(category, self.parse_books)
def parse_books(self, response):
for book in response.css('ul.gl-warp li.gl-item'):
yield {
'title': book.css('div.p-name a::text').get(),
'author': book.css('div.p-bookdetails span:nth-child(1) a::text').get(),
'price': book.css('div.p-price strong i::text').get(),
}
```
5. 运行 Spider。您可以使用以下命令运行您的Spider:
```
scrapy crawl jingdong_book
```
6. 查看结果。Scrapy 会将爬取到的数据保存在 CSV 或 JSON 文件中。您可以在命令行中看到输出的结果。
这是一个简单的示例,您可以根据自己的需求修改代码。注意,爬取网站时一定要遵守网站的爬虫协议,避免被封禁或其他法律问题。