爬取网页页面所有的文字,中间换行的空格去掉,并保存为一个列表,Python代码
时间: 2024-09-07 09:01:05 浏览: 91
python批量爬取网页图片的初步实现
要在Python中爬取网页页面的所有文字,并将中间换行的空格去掉,可以使用`requests`库来获取网页内容,然后使用`BeautifulSoup`库来解析网页并提取文本。接着,可以使用字符串的`replace`方法去除多余的空格,并将结果保存到列表中。以下是一个简单的代码示例:
```python
import requests
from bs4 import BeautifulSoup
# 获取网页内容
response = requests.get('http://example.com')
response.encoding = response.apparent_encoding # 确保使用正确的编码
# 使用BeautifulSoup解析网页
soup = BeautifulSoup(response.text, 'html.parser')
# 提取网页中的所有文本
texts = soup.find_all(text=True)
# 去除多余的空格并将结果保存为列表
cleaned_texts = [text.replace('\n', '').replace(' ', '') for text in texts if text.strip()]
print(cleaned_texts)
```
请注意,你需要先安装`requests`和`BeautifulSoup`库才能运行上述代码。
安装`requests`库的命令是:
```
pip install requests
```
安装`BeautifulSoup`库的命令是:
```
pip install beautifulsoup4
```
请确保你有权访问和爬取目标网站,并遵守网站的robots.txt规则以及相关法律法规。
阅读全文