如何提取html的文字
时间: 2024-01-11 22:13:06 浏览: 88
提取HTML代码中文字的C#函数
可以使用 Python 的 BeautifulSoup 库来提取 HTML 中的文字。以下是一个简单的例子:
```python
from bs4 import BeautifulSoup
import requests
# 用 requests 库获取页面 HTML
url = 'https://www.example.com'
response = requests.get(url)
html = response.content
# 解析 HTML 并提取文字
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()
# 打印提取的文字
print(text)
```
在上面的代码中,我们首先使用 requests 库获取页面的 HTML 内容,然后使用 BeautifulSoup 解析 HTML。最后,我们使用 `get_text()` 方法提取 HTML 中的所有文字,并将其存储在 `text` 变量中。你可以根据自己的需要进一步处理 `text` 变量中的内容,例如去除空格、换行符等。
阅读全文