python 爬取.shtml
时间: 2023-09-16 12:14:49 浏览: 186
python 爬取网页
您好!要爬取.shtml后缀的网页,您可以使用 Python 中的 requests 和 BeautifulSoup 库。首先,您需要安装这两个库:
```
pip install requests
pip install beautifulsoup4
```
然后,可以使用以下示例代码来获取.shtml网页的内容:
```python
import requests
from bs4 import BeautifulSoup
def crawl_shtml(url):
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.content, 'html.parser')
# 在这里进行页面内容的解析和提取
# 可以使用 soup.find() 或 soup.find_all() 来找到特定的元素
else:
print("请求失败")
# 调用函数,传入目标网页的链接
crawl_shtml("http://example.com/sample.shtml")
```
在上述示例中,我们使用 requests 库发起 GET 请求获取网页的内容,然后使用 BeautifulSoup 库来解析和提取页面元素。您可以根据实际需要调整代码来处理.shtml网页中的内容。
请注意,爬取网页时应遵守相关法律和网站的使用条款,并确保您的爬虫行为合法和道德。
阅读全文