python爬虫爬取读书网代码完整版
时间: 2024-12-21 18:10:29 浏览: 4
Python爬虫爬取煎蛋网图片代码实例
Python爬虫用于从网站上抓取数据,包括读书网这样的在线平台。这里提供一个基本的Python Scrapy框架爬取读书网书籍信息的示例代码,Scrapy是一个强大的网络爬虫框架:
```python
# 首先安装必要的库(如果你还没安装)
import scrapy
# 定义一个Spider类
class BookSpider(scrapy.Spider):
name = 'book_spider'
start_urls = ['http://example.dushu.com'] # 替换为实际的读书网首页URL
def parse(self, response):
# 解析HTML并提取需要的数据,例如书籍名称、作者、简介等
book_list = response.css('div.book-item') # CSS选择器根据实际情况修改
for book in book_list:
title = book.css('h2 a::text').get() # 提取标题
author = book.css('.author::text').get() # 提取作者
intro = book.css('.intro::text').get() # 提取简介
yield {
'title': title,
'author': author,
'description': intro,
}
# 爬虫遇到下一页链接时继续爬取
next_page = response.css('a.next::attr(href)').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
# 运行爬虫
if __name__ == '__main__':
from scrapy.crawler import CrawlerProcess
process = CrawlerProcess({'USER_AGENT': 'Mozilla/5.0'})
process.crawl(BookSpider)
process.start() # 这里需要替换为你实际的命令行运行设置
阅读全文