BeautifulSoup中previous_sibling

BeautifulSoup中的previous_sibling是指在HTML文档中，当前标签的上一个同级标签（即与当前标签具有相同父级标签的标签）。如果当前标签没有上一个同级标签，则返回None。例如，假设我们有以下HTML代码： ``` <html> <body> 第一个段落 第二个段落 第三个段落 </body> </html> ``` 我们可以使用BeautifulSoup来找到第二个段落标签（即第二个段落）的上一个同级标签，代码如下： ```python from bs4 import BeautifulSoup html = """ <html> <body> 第一个段落 第二个段落 第三个段落 </body> </html> """ soup = BeautifulSoup(html, 'html.parser') second_p = soup.find_all('p')[1] previous_p = second_p.previous_sibling print(previous_p) ``` 输出结果为： ```html 第一个段落 ``` 因为第二个段落标签的上一个同级标签是第一个段落标签。注意，上一个同级标签并不包括任何文本或空格。如果希望获取上一个同级标签的文本内容，可以使用previous_sibling.next_sibling.string。

import os import re from bs4 import BeautifulSoup # 设置html文件路径 folder_path = r'C:\Users\test\Desktop\DIDItest' # 提取html文件内所需要数据 def extract_html_info(file_path): with open(file_path, 'r', encoding='utf-8') as file: # 读取HTML源代码 html = file.read() soup = BeautifulSoup(html, 'html.parser') # 提取所有的标签 p_tags = soup.find_all('p') for p_tag in p_tags: # 提取ID talk_id = p_tag.find_previous(string=lambda text: isinstance(text, str) and '[talkid:' in text) talk_id = talk_id.strip('[talkid:]') # 提取时间 timestamp = p_tag.find_previous('body').find_previous('head').find('meta', {'http-equiv': 'Content=-Type'})[ 'content'] # 提取发送号码 send_number = p_tag.find('span', {'class': 'hint-success'}).text # 提取接收号码 receive_number = p_tag.find_all('span', {'class': 'hint-success'})[1].text # 提取信息内容 message = p_tag.previous_sibling.strip() # 遍历文件夹及子文件夹，提取HTML文件信息 for root, dirs, files in os.walk(folder_path): for file in files: if file.endswith('.html'): file_path = os.path.join(root, file) extract_html_info(file_path) # 判断是否是音频 if '音频' in message: file_url = p_tag.find('a')['href'] print( f"ID: {talk_id}, 时间: {timestamp}, 发送号码: {send_number}, 接收号码: {receive_number}, 音频文件地址: {file_url}") else: print( f"ID: {talk_id}, 时间: {timestamp}, 发送号码: {send_number}, 接收号码: {receive_number}, 信息内容: {message}")

你的代码有一些缩进错误，导致无法正确运行。以下是修正后的代码： ```python import os import re from bs4 import BeautifulSoup # 设置html文件路径 folder_path = r'C:\Users\test\Desktop\DIDItest' # 提取html文件内所需要数据 def extract_html_info(file_path): with open(file_path, 'r', encoding='utf-8') as file: # 读取HTML源代码 html = file.read() soup = BeautifulSoup(html, 'html.parser') # 提取所有的标签 p_tags = soup.find_all('p') for p_tag in p_tags: # 提取ID talk_id = p_tag.find_previous(string=lambda text: isinstance(text, str) and '[talkid:' in text) talk_id = talk_id.strip('[talkid:]') # 提取时间 timestamp = p_tag.find_previous('body').find_previous('head').find('meta', {'http-equiv': 'Content=-Type'})['content'] # 提取发送号码 send_number = p_tag.find('span', {'class': 'hint-success'}).text # 提取接收号码 receive_number = p_tag.find_all('span', {'class': 'hint-success'})[1].text # 提取信息内容 message = p_tag.previous_sibling.strip() # 判断是否是音频 if '音频' in message: file_url = p_tag.find('a')['href'] print(f"ID: {talk_id}, 时间: {timestamp}, 发送号码: {send_number}, 接收号码: {receive_number}, 音频文件地址: {file_url}") else: print(f"ID: {talk_id}, 时间: {timestamp}, 发送号码: {send_number}, 接收号码: {receive_number}, 信息内容: {message}") # 遍历文件夹及子文件夹，提取HTML文件信息 for root, dirs, files in os.walk(folder_path): for file in files: if file.endswith('.html'): file_path = os.path.join(root, file) extract_html_info(file_path) ``` 在这个修正后的代码中，我将提取HTML文件信息的部分封装到了一个函数`extract_html_info`中。然后，我使用`os.walk`函数遍历了指定文件夹及其子文件夹，找到所有的HTML文件，并调用`extract_html_info`函数来提取信息。希望这次能够顺利运行！如果你还有其他问题，请随时提问。

如何使用BeautifulSoup解析网页内容？

使用BeautifulSoup解析网页内容的步骤如下： 1. 导入BeautifulSoup模块： ```python from bs4 import BeautifulSoup ``` 2. 创建BeautifulSoup对象： ```python soup = BeautifulSoup(html_doc, 'html.parser') ``` 其中，`html_doc`是网页的HTML内容，`html.parser`是解析器的类型，可以根据需要选择不同的解析器。 3. 使用BeautifulSoup对象进行网页内容的解析和提取： ```python # 查找标签 soup.find('tag') # 查找第一个匹配的标签 soup.find_all('tag') # 查找所有匹配的标签 # 获取标签的属性值 tag['attribute'] # 获取标签的某个属性值 # 获取标签的文本内容 tag.text # 获取标签内的文本内容 # 获取标签的子标签 tag.contents # 获取标签的所有子标签 # 获取标签的父标签 tag.parent # 获取标签的父标签 # 获取标签的兄弟标签 tag.next_sibling # 获取标签的下一个兄弟标签 tag.previous_sibling # 获取标签的上一个兄弟标签 ``` 以上是使用BeautifulSoup解析网页内容的基本方法，根据具体需求可以进行更多的操作和提取。

BeautifulSoup中previous_sibling

如何使用BeautifulSoup解析网页内容？

相关推荐

BeautifulSoup1_zip_BeautifulSoup1.zip_

beautifulsoup-zh_CN-v4.4.0.zip

BeautifulSoup Project_python_

beautifulsoup所有方法

Beautifulsoup的所有方法解析

beautifulsoup有什么查找函数

如何使用BeautifulSoup等HTML解析库

用第二种方法输出结果为None

find_all返回None怎么解决

如何爬取html br标签之间的内容

爬取微博国羽苏杯三连冠新闻评论的代码

爬取https://news.sina.cn/zt_d/yiqing0121中全国疫情每月份的全部累计数据并且正确输出

bs4获取所有的兄弟节点

用python语言写一个程序，程序的要求以“小牛”为关键词，爬取关于他的五十条微博信息，其中包括点赞转发评论以及微博的图片，并将其保存在excel

爬取豆瓣电影网TOP250的电影排名和影片名称 将数据保存到.txt文本文档中。

Traceback (most recent call last): File "C:\Users\test\Desktop\DIDI测试.py", line 13, in <module> extract_html_info(file_path) ^^^^^^^^^^^^^^^^^ NameError: name 'extract_html_info' is not defined

最新推荐

jSP在线教学质量评价系统的设计与实现(源代码)

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

SQL怎么实现 数据透视表

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

实现实时监控告警系统：Kafka与Grafana整合

使用vue3+elementsplus封装一个提示确认框的组件，要求将请求地址和确认框展示信息作为参数暴露出去

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

爬取豆瓣电影网TOP250的电影排名和影片名称将数据保存到.txt文本文档中。

SQL怎么实现数据透视表