用小xpath爬取三国演义
时间: 2024-12-02 18:19:13 浏览: 22
Python爬取三国演义的实现方法
XPath是一种用于在XML文档或HTML网页中选择元素的语言,它通过路径表达式来定位和提取数据。如果你想用XPath爬取《三国演义》的内容,首先你需要确定目标页面的结构,比如书籍章节列表通常会包含标题、链接等信息。
例如,假设你想抓取的是网页中的每个章节标题及其链接,你可以编写这样的XPath表达式:
```xpath
//h2[@class='chapter-title'] // a[@class='chapter-link']
```
这个XPath表示选择所有`<h2>`标签,其`class`属性值为`chapter-title`,然后选取这些标签下的所有`<a>`标签,其`class`属性值为`chapter-link`。
具体的Python代码(使用如BeautifulSoup库)可能会像这样:
```python
import requests
from bs4 import BeautifulSoup
url = 'http://example.com/triangle-of-war' # 替换为你实际的三国演义章节页面URL
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
titles = soup.select('//h2[@class="chapter-title"] // a[@class="chapter-link"]')
for title in titles:
print(title.text) # 输出标题
print(title['href']) # 输出链接
```
记得替换URL,并检查实际页面的DOM结构是否与XPath表达式匹配。
阅读全文