用python爬取网页的文字和图片给出源代码
时间: 2024-11-03 12:20:40 浏览: 11
在Python中,我们可以使用一些流行的库如`requests`, `BeautifulSoup`, 和 `PIL` (如果需要下载图片) 来爬取网页的内容。以下是一个简单的步骤:
1. **安装所需库**:
使用pip安装所需的库:
```
pip install requests beautifulsoup4 pillow
```
2. **获取网页内容**:
```python
import requests
url = 'https://example.com' # 替换为你想要爬取的网站URL
response = requests.get(url)
page_content = response.text
```
这里我们使用`requests.get()`发送HTTP请求并获取页面HTML内容。
3. **解析HTML(文字部分)**:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(page_content, 'html.parser')
text = soup.get_text() # 获取纯文本
```
BeautifulSoup帮助我们解析HTML结构,提取出纯文本。
4. **处理图片**:
如果你想获取图片,可以查找`img`标签并下载图片:
```python
img_tags = soup.find_all('img')
for img in img_tags:
img_url = img['src'] # 图片URL
response_img = requests.get(img_url)
with open(f'image_{img_url.split("/")[-1]}, 'wb') as f:
f.write(response_img.content)
```
5. **保存源代码**:
如果想保存原始HTML代码,你可以直接打印出来,或者将其保存到文件中:
```python
with open('source_code.html', 'w', encoding='utf-8') as f:
f.write(page_content)
```
注意:在实际操作中,请遵守网站的robots.txt规则以及可能存在的反爬虫策略,并尊重版权。
阅读全文