python提取网页文字图片
时间: 2024-12-27 19:31:40 浏览: 2
在Python中,可以使用一些库来提取网页的文字和图片内容。以下是两个常用的库及其方法:
1. **BeautifulSoup**:用于解析HTML文档,提取文本信息。首先安装`beautifulsoup4`库:
```bash
pip install beautifulsoup4 requests
```
然后编写代码获取页面文本:
```python
from bs4 import BeautifulSoup
import requests
url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
text = soup.get_text()
```
文本存储在变量`text`中。
2. **PIL (Pillow)** 或 **requests**:用于下载图片。首先安装`Pillow`(如果尚未安装):
```bash
pip install pillow
```
下载图片示例:
```python
from PIL import Image
import requests
image_url = 'http://example.com/image.jpg'
response = requests.get(image_url, stream=True)
with open('image.jpg', 'wb') as out_file:
out_file.write(response.content)
```
图片保存在本地文件`image.jpg`中。
注意:在抓取网站内容时,一定要遵守网站的robots.txt规则,并尊重版权,不要无授权爬取敏感信息。
阅读全文