python爬取div中的汉字,并以txt输出
时间: 2024-02-17 15:55:04 浏览: 121
python爬虫 爬取文字生成TXT文件
以下是一个简单的Python爬虫程序,可以爬取一个网页中所有div标签中的汉字,并将其保存到一个txt文件中。
```python
import requests
from bs4 import BeautifulSoup
url = "http://example.com"
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')
# 找到所有的div标签
divs = soup.find_all('div')
# 遍历每个div标签,将其中的汉字存入一个列表
chinese_chars = []
for div in divs:
chinese_chars += [char for char in div.get_text() if '\u4e00' <= char <= '\u9fff']
# 将列表转换为字符串,并保存到一个txt文件中
with open('chinese_chars.txt', 'w', encoding='utf-8') as f:
f.write(''.join(chinese_chars))
```
以上程序使用了requests库和BeautifulSoup库来获取网页内容和解析HTML代码。首先,程序读取一个网页并将其转换为BeautifulSoup对象。然后,它找到所有的div标签,并遍历每个标签以提取汉字。最后,程序将提取到的汉字列表转换为字符串,并将其保存到一个txt文件中。
阅读全文