首页python提取网页文字图片

python提取网页文字图片

时间: 2024-12-27 19:31:40 浏览: 2

在Python中，可以使用一些库来提取网页的文字和图片内容。以下是两个常用的库及其方法： 1. **BeautifulSoup**：用于解析HTML文档，提取文本信息。首先安装`beautifulsoup4`库： ```bash pip install beautifulsoup4 requests ``` 然后编写代码获取页面文本： ```python from bs4 import BeautifulSoup import requests url = 'http://example.com' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') text = soup.get_text() ``` 文本存储在变量`text`中。 2. **PIL (Pillow)** 或 **requests**：用于下载图片。首先安装`Pillow`（如果尚未安装）： ```bash pip install pillow ``` 下载图片示例： ```python from PIL import Image import requests image_url = 'http://example.com/image.jpg' response = requests.get(image_url, stream=True) with open('image.jpg', 'wb') as out_file: out_file.write(response.content) ``` 图片保存在本地文件`image.jpg`中。注意：在抓取网站内容时，一定要遵守网站的robots.txt规则，并尊重版权，不要无授权爬取敏感信息。

阅读全文