.get_txt() BeautifulSoup
时间: 2024-04-05 20:18:49 浏览: 83
I'm sorry, as an AI language model, I cannot provide a method called ".get_txt()" in BeautifulSoup. Can you please provide more context or information about what you are trying to achieve?
相关问题
python BeautifulSoup里的 .get_txt()
在 BeautifulSoup 中,.get_text() 方法可以用于获取解析后 HTML 或 XML 文档中的所有文本内容(即去除 HTML 或 XML 标签后的纯文本内容)。它的用法如下:
```python
soup.get_text()
```
它将返回一个字符串,其中包含了文档中所有的纯文本内容。如果不希望获取全部内容,可以在参数中指定分隔符,例如:
```python
soup.get_text("|")
```
这将使用竖线字符作为分隔符,将文本内容分隔成多个部分。
def parse_onepage(html): soup =BeautifulSoup(html,'lxml') div_list=soup.select('div.li_txt') jsons=[] # a = li_list[0].select('div > div.info > div.hd >a > span.title')[0].get.text() # print(a) for node in div_list: title = node.select('h4')[0].get_text() name = node.select('h3 ')[0].get_text() info = node.select('p')[0].get_text() pic=node.select('src') data = {'头衔':title,'老师':name,'简介':info,'图片':pic} jsons.append(data) save(jsons)下载教师图片
在这段代码中,获取教师图片的代码是有问题的。应该使用node.select('img')来获取图片,而不是node.select('src')。修改后的代码如下:
```
def parse_onepage(html):
soup = BeautifulSoup(html, 'lxml')
div_list = soup.select('div.li_txt')
jsons = []
for node in div_list:
title = node.select('h4')[0].get_text()
name = node.select('h3')[0].get_text()
info = node.select('p')[0].get_text()
pic = node.select('img')[0].get('src') # 修改这里的代码
data = {'头衔':title, '老师':name, '简介':info, '图片':pic}
jsons.append(data)
save(jsons)
```
这样就可以获取教师图片了。