用scrapy爬取 https://www.biqg.net/book120001/35976330.html 网页的内容
时间: 2023-11-15 10:46:20 浏览: 91
Python下使用Scrapy爬取网页内容的实例
以下是使用Scrapy爬取https://www.biqg.net/book120001/35976330.html网页内容的代码示例:
首先,创建一个Scrapy项目,然后在`items.py`文件中定义要爬取的数据项:
```python
import scrapy
class BiqgItem(scrapy.Item):
title = scrapy.Field()
content = scrapy.Field()
```
然后,在`spiders`文件夹下创建一个名为`biqg_spider.py`的爬虫蜘蛛,用于从目标网站上抓取数据:
```python
import scrapy
from biqg.items import BiqgItem
class BiqgSpider(scrapy.Spider):
name = 'biqg'
allowed_domains = ['www.biqg.net']
start_urls = ['https://www.biqg.net/book120001/35976330.html']
def parse(self, response):
item = BiqgItem()
item['title'] = response.css('#BookCon h1::text').get()
item['content'] = '\n'.join(response.css('#BookText::text').getall())
yield item
```
在`biqg_spider.py`中,我们首先定义了爬虫的名称、目标网站域名和起始URL。然后,我们重写了`parse()`方法,该方法会从相应中提取我们要爬取的数据。在这里,我们使用CSS选择器来获取小说标题和内容,并将它们存储在`BiqgItem`对象中。最后,我们使用`yield`关键字将该对象传递给Scrapy引擎,以便存储在输出文件中。
最后,在命令行中运行以下命令来启动爬虫:
```
scrapy crawl biqg -o output.json
```
这将启动爬虫并将数据保存到名为`output.json`的文件中。
阅读全文