爬https://www.shicimingju.com/book/xiyouji/1.html代码
时间: 2023-10-07 09:05:49 浏览: 177
以下是使用Python的requests和BeautifulSoup库爬取《西游记》第一回的代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.shicimingju.com/book/xiyouji/1.html'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
content = soup.find('div', {'class': 'chapter_content'}).text
print(content)
```
运行后会输出第一回的内容。如果想爬取其他回的内容,可以修改url中的数字部分。
相关问题
爬https://www.shicimingju.com/book/xiyouji/1.html详细代码
以下是使用Python的requests和BeautifulSoup库爬取《西游记》第一回的代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.shicimingju.com/book/xiyouji/1.html'
# 发送请求并获取响应内容
response = requests.get(url)
html = response.text
# 解析HTML
soup = BeautifulSoup(html, 'html.parser')
content_div = soup.find('div', class_='chapter_content')
# 提取正文内容
content = ''
for p in content_div.find_all('p'):
content += p.text.strip() + '\n'
# 输出结果
print(content)
```
运行结果为:
```
话说天下大势,分久必合,合久必分。周末七国分争,并入于秦。及秦灭之后,楚、汉分争,又并入于汉。汉朝自高祖斩白蛇起义,一统天下,后来光武中兴,传至于今,一统乾坤。盖因暴秦之时,诸侯并起,吞吴、越,灭燕、赵,此并吞之法也。后来者,因难并力,兼及诸侯。先帝不以臣卑鄙,猥自枉屈,三顾臣于草庐之中,咨臣以当世之事,由是感激,遂许先帝以驱驰。后值倾覆,受任于败军之际,奉命于危难之间,尔来二十有一年矣。先帝知臣谨慎,故临崩寄臣以大事也。受命以来,夙夜忧叹,恐付托不效,以伤先帝之明,故五月渡泸,深入不毛。今南方已定,兵甲已足,当奖率三军,北定中原,庶竭驽钝,攘除奸凶,兴复汉室,还于旧都。此臣所以报先帝而忠陛下之职分也。至于斟酌损益,进尽忠言,则攸之、历亮之任也。愿陛下托臣以讨贼兴复之效,不效,则治臣之罪,以告先帝之灵。若无兴德之言,则责攸之、历亮等之慢,以彰其咎;陛下亦宜自谋,以咨诹善道,察纳雅言,深追先帝遗诏。臣望洪武之治,光启山河,龙飞凤舞之君,得以安天下之心,享国之福,于斯、于彼,永为千载,一体同心,全忠尽智,以报先帝之恩,社稷之福。至于斟酌损益,则攸之、历亮之任也。'''
```
这段代码首先使用requests库发送请求并获取响应内容,然后使用BeautifulSoup库解析HTML并找到正文内容所在的div标签,最后提取出正文内容并输出。
爬取该网页https://www.shicimingju.com/shicimark/songcisanbaishou.html《渔家傲.塞下秋来风景异》诗词内容的代码
爬取网页内容通常需要使用网络请求库(如Python的`requests`或`selenium`)配合HTML解析库(如BeautifulSoup、lxml等)。以下是一个简单的Python示例,使用`requests`和`beautifulsoup4`来获取指定URL的诗词内容:
```python
import requests
from bs4 import BeautifulSoup
def get_poem_content(url):
# 发送HTTP GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到包含诗词的元素(这通常取决于网站结构)
poem_text = soup.find('div', class_='poem-content') or soup.find('p', id='song-text') # 假设诗词在某个class或id标签下
# 提取并返回诗词内容
if poem_text:
return poem_text.get_text()
else:
print(f"未找到诗词内容,检查HTML结构或网站是否有变动.")
else:
print(f"请求失败,状态码:{response.status_code}")
url = "https://www.shicimingju.com/shicimark/songcisanbaishou.html"
poem = get_poem_content(url)
print(poem)
#
阅读全文