python爬取网页指定内容
时间: 2023-10-07 18:07:33 浏览: 318
python基于BeautifulSoup实现抓取网页指定内容的方法
5星 · 资源好评率100%
要爬取网页上的指定内容,需要使用 Python 的 requests 和 BeautifulSoup 库。
首先,使用 requests 库发送 GET 请求获取网页内容:
```python
import requests
url = "http://example.com"
response = requests.get(url)
html_content = response.text
```
然后,使用 BeautifulSoup 库解析 HTML 内容并获取指定内容。例如,如果要获取网页中所有的超链接:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
links = soup.find_all('a')
for link in links:
print(link.get('href'))
```
如果要获取网页中的标题:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
title = soup.title.string
print(title)
```
总之,使用 requests 和 BeautifulSoup 库可以轻松地爬取网页上的指定内容。
阅读全文