python爬虫爬取网页文字
时间: 2023-11-19 20:06:39 浏览: 91
在 Python 中,我们可以使用第三方库 requests 和 BeautifulSoup 来爬取网页文字。
首先,我们需要安装这两个库。可以通过 pip 命令来安装。
```
pip install requests
pip install beautifulsoup4
```
然后,我们可以使用 requests 库来获取网页的 HTML 内容,如下所示:
```python
import requests
url = "https://www.example.com"
response = requests.get(url)
if response.status_code == 200:
html_content = response.text
print(html_content)
else:
print("Failed to retrieve HTML content")
```
这段代码将会获取 https://www.example.com 网页的 HTML 内容,并打印出来。
接下来,我们可以使用 BeautifulSoup 库来解析 HTML 内容,提取出我们需要的文字内容。如下所示:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
text_content = soup.get_text()
print(text_content)
```
这段代码将会使用 BeautifulSoup 解析上一步获取到的 HTML 内容,并提取出网页的文字内容,并打印出来。
阅读全文