xpath爬取起点中文网
时间: 2023-11-09 13:00:12 浏览: 82
要使用 xpath 爬取起点中文网,首先需要分析网页的结构和元素。以爬取《诛仙》第一部为例,可以使用以下代码:
```
import requests
from lxml import etree
url = 'https://book.qidian.com/info/1009704719'
response = requests.get(url).text
html = etree.HTML(response)
title = html.xpath('//div[@class="book-info"]/h1/em/text()')[0]
author = html.xpath('//div[@class="book-info"]/h1/span/a/text()')[0]
intro = html.xpath('//div[@class="book-intro"]/p/text()')[0]
print(title)
print(author)
print(intro)
```
其中,`//` 表示从根节点开始匹配,`[]` 表示筛选条件,`@class` 表示匹配 class 属性,`text()` 表示提取文本内容。运行以上代码,可以输出《诛仙》的书名、作者和简介。
相关问题
Scrapy爬取起点中文网月票榜
好的,这个问题需要用到Scrapy框架来实现爬取起点中文网月票榜。以下是大概的思路:
1. 首先,需要在Scrapy中定义一个Spider,用来爬取起点中文网的月票榜页面。
2. 在Spider中,需要定义起点中文网月票榜页面的URL,以及对应的处理函数。
3. 在处理函数中,使用XPath或CSS Selector来提取页面中的相关信息,例如小说名称、作者、月票数等。
4. 最后,将提取到的信息保存到本地文件或数据库中。
这只是一个大概的思路,具体实现过程还需要结合起点中文网月票榜页面的具体HTML结构来进行调整。如果需要更详细的实现过程,可以参考Scrapy官方文档或者其他相关教程。
xpath爬取当当网图片
以下是使用 Python 和 XPath 爬取当当网图片的示例代码:
```python
import requests
from lxml import etree
# 构造请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求
url = 'http://book.dangdang.com/'
response = requests.get(url, headers=headers)
# 解析HTML页面
html = etree.HTML(response.text)
# 提取图片链接并下载
img_urls = html.xpath('//img/@src')
for img_url in img_urls:
response = requests.get(img_url, headers=headers)
with open(img_url.split('/')[-1], 'wb') as f:
f.write(response.content)
```
在这个示例中,首先构造了一个请求头,然后使用 requests 库发送请求。接着使用 lxml 库的 etree 模块解析 HTML 页面,并使用 XPath 提取页面中的所有图片链接。最后,遍历图片链接并使用 requests 库下载图片。注意,这个示例只是提取了页面中的所有图片链接,如果你想要爬取某个特定的图片,需要根据图片的 XPath 进行定位。
阅读全文