python起点中文网原创风云榜爬取
时间: 2023-11-17 12:04:45 浏览: 55
使用Python爬取起点中文网原创风云榜数据可以通过以下步骤实现:
1. 导入requests和pyquery库,使用requests库获取网页源代码,使用pyquery库解析网页源代码。
2. 找到起点中文网原创风云榜的URL地址,使用requests库发送GET请求获取网页源代码。
3. 使用pyquery库解析网页源代码,获取需要的小说排行榜数据。
4. 将获取到的数据保存到本地文件或数据库中。
以下是一个简单的Python爬虫代码示例,可以爬取起点中文网原创风云榜前10名小说的书名、作者和简介:
```python
import requests
from pyquery import PyQuery as pq
url = 'https://www.qidian.com/rank/yuepiao?style=1'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
doc = pq(response.text)
items = doc('.book-mid-info')
for item in items:
book_title = pq(item).find('.title').text()
book_author = pq(item).find('.author').text()
book_intro = pq(item).find('.intro').text()
print('书名:', book_title)
print('作者:', book_author)
print('简介:', book_intro)
print('------------------------')
```