bodydata中字符串如下: [talkid:138031378]2014年4月20日 05:55:45 , <span class="hint-success" data-hint="">111222</span> 向 <span class="hint-success" data-hint="">323456</span> 发送 我们已经是好友了,开始聊天吧! [talkid:138031379]2014年4月20日 06:55:45 , <span class="hint-success" data-hint="">111222</span> 向 <span class="hint-success" data-hint="">342112</span> 发送 我们已经是好友了,开始聊天吧! [talkid:137031381]2014年4月20日 03:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已经是好友了,开始聊天吧! [talkid:137031382]2014年4月22日 04:45:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 音频 :[<a href="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> [talkid:137031383]2014年4月23日 04:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 图片 :[<a href="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> [talkid:137031384]2014年4月24日 05:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已经是好友了,开始聊天吧! [talkid:137031385]2014年4月25日 06:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已经是好友了,开始聊天吧! 使用Python爬虫逐行提取“发送”或“中发言”后的内容,如果包含</a href>标签,则设置content默认为空

时间: 2023-10-20 09:05:37 浏览: 62
你可以使用以下代码逐行提取 "发送" 或 "中言" 后的内容在有 "</a href>"签时将 content 设置为空: python import re body_data = ''' [talkid:138031378]2014年4月20日 05:55:45 , <span class="hint-success" data-hint="">111222</span> 向 <span class="hint-success" data-hint="">323456</span> 发送 我们已经是好友了,开始聊天吧! [talkid:138031379]2014年4月20日 06:55:45 , <span class="hint-success" data-hint="">111222</span> 向 <span class="hint-success" data-hint="">342112</span> 发送 我们已经是好友了,开始聊天吧! [talkid:137031381]2014年4月20日 03:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已经是好友了,开始聊天吧! [talkid:137031382]2014年4月22日 04:45:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 音频 :[<a href="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> [talkid:137031383]2014年4月23日 04:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 图片 :[<a href="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> [talkid:137031384]2014年4月24日 05:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已经是好友了,开始聊天吧! [talkid:137031385]2014年4月25日 06:55:45 , <span class="hint-success" data-hint="">2323234</span> 在群 <span class="hint-success" data-hint="">20011</span> 中发言 我们已经是好友了,开始聊天吧! ''' lines = body_data.splitlines() for line in lines: match = re.search('(中发言|发送)\s(.*?)\s', line) if match: content = match.group(2) if '</a href>' in content: content = '' print(content) ``` 这段代码将逐行提取 "发送" 或 "中发言" 后的内容,并在 content 中包含 "</a href>" 标签时将其设置为空。你可以根据需要将这部分代码整合到你的爬虫代码中。

相关推荐

网页源代码模板如下: [talkid:138031379]2014年4月20日 06:55:45 , 111222342112 发送 我们已经是好友了,开始聊天吧! [talkid:137031381]2014年4月20日 03:55:45 , 2323234 在群 20011 中发言 我们已经是好友了,开始聊天吧! [talkid:137031382]2014年4月22日 04:45:45 , 2323234 在群 20011 中发言 音频 :[音频 [talkid:137031383]2014年4月23日 04:55:45 , 2323234 在群 20011 中发言 图片 :[图片 [talkid:137031384]2014年4月24日 05:55:45 , 2323234 在群 20011 中发言 我们已经是好友了,开始聊天吧! [talkid:137031385]2014年4月25日 06:55:45 , 2323234 在群 20011 中发言 我们已经是好友了,开始聊天吧! [talkid:138031387]2014年4月20日 04:45:45 , 2323234543521 发送 音频 :[音频 [talkid:138031388]2014年4月20日 04:55:45 , 2323234344532 发送 图片 :[图片 [talkid:138031389]2014年4月20日 05:55:45 , 2323234323345 发送 1112232 [talkid:138031390]2014年4月20日 06:55:45 , 2323234342114 发送 我们已经是好友了,开始聊天吧! 利用python爬虫,从中爬取“发送”或“中发言”后的字符串(包括链接地址)

网页源代码模板如下: <html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"/> <head> </head> <body>[talkid:137031381]2014年4月20日 03:55:45 , 2323234 在群 20011 中发言 我们已经是dffwerwer天吧! () [talkid:137031382]2014年4月22日 04:45:45 , 2323234 在群 20011 中发言 音频 :[音频 () [talkid:137031383]2014年4月23日 04:55:45 , 2323234 在群 20011 中发言 图片 :[图片 () [talkid:137031384]2014年4月24日 05:55:45 , 2323234 在群 20011 中发言 我们已方式方法方式 () [talkid:137031385]2014年4月25日 06:55:45 , 2323234 在群 20011 中发言 我而对方是否的天吧! () </body> </html> 利用python爬虫,提取源代码字符串,并从每行body中爬取[<a href=后的链接地址,如果没有则将该行链接地址设置为NONE

网页内源代码模板如下: <body> [talkid:138031370]2014年4月20日 03:55:45 , 111222232323 发送 我们已经是好友了,开始聊天吧! () [talkid:138031371]2014年4月20日 04:45:45 , 111222123456 发送 音频 :[音频 () [talkid:138031372]2014年4月20日 04:55:45 , 111222123456 发送 图片 :[图片 () [talkid:137031382]2014年4月22日 04:45:45 , 2323234 在群 20011 中发言 音频 :[音频 () [talkid:137031383]2014年4月23日 04:55:45 , 2323234 在群 20011 中发言 图片 :[图片 () [talkid:137031384]2014年4月24日 05:55:45 , 2323234 在群 20011 中发言 我们已经是好友了,开始聊天吧! () </body> </html> 利用python爬虫,打开C:/Users/test/Desktop/DIDItest文件夹下所有文件夹内的html文件源代码,并提取每一行<body>之间的数据,剔除 ()

<html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"> <head> </head> <body>[talkid:138031370]2014年4月20日 03:55:45 , 111222232323 发送 我们已经是好友了,开始聊天吧! () [talkid:138031371]2014年4月20日 04:45:45 , 111222123456 发送 音频 :[音频 () [talkid:138031372]2014年4月20日 04:55:45 , 111222123456 发送 图片 :[图片 () [talkid:137031382]2014年4月22日 04:45:45 , 2323234 在群 20011 中发言 音频 :[音频 () [talkid:137031383]2014年4月23日 04:55:45 , 2323234 在群 20011 中发言 图片 :[图片 () [talkid:137031384]2014年4月24日 05:55:45 , 2323234 在群 20011 中发言 我们已经是好友了,开始聊天吧! () </body> </html> 利用python爬虫,打开C:/Users/test/Desktop/DIDItest文件夹下所有文件夹内的html文件源代码,将源代码转换为字符串格式,

最新推荐

recommend-type

自动化纹理魔法:Maya脚本在纹理贴图中的应用

Maya脚本主要有两种形式:MEL(Maya Embedded Language)和Python。MEL是Maya的内置脚本语言,用于自动化任务、扩展Maya的功能以及自定义用户界面。MEL脚本可以快速创建对象、精确控制对象属性,以及执行复杂的场景管理任务。MEL的语法结构与C语言接近,支持强制语法和函数语法,是一种强类型语言,但通常允许隐式声明和类型转换。 Python脚本在Maya中的应用也非常广泛,特别是在Maya 2020及以后的版本中。Python提供了一种更为现代和灵活的方式来编写脚本,可以利用Python的强大库进行复杂的数据处理和自动化任务。Python脚本可以通过`maya.cmds`模块访问Maya的命令,实现与MEL相似的功能。 在Maya中,脚本可以通过“脚本编辑器”(Script Editor)进行编写和执行,也可以保存为`.mel`或`.py`文件以便重复使用。脚本编辑器提供了MEL和Python两种语言选项,允许用户在不同语言环境下编写和测试脚本。此外,Maya还支持将Python函数注册为MEL程序,以便在需要MEL脚本的地方使用Python代码。
recommend-type

反弹shell的几种获取方式.docx

一、反弹shell 二、python pty 方式 三、suid提权的方式 1、 suid权限的设置 2、 找出系统中具有suid权限的命令 3、 find提权 四、sessions的使用方法
recommend-type

IMG_20240819_173351.jpg

IMG_20240819_173351.jpg
recommend-type

Wireshark安装包(内有支持win7,win10,win11)总有一个版本适合

Wireshark是一款强大的网络协议分析器,主要用于捕获和深入分析网络流量,是网络故障排查、安全审计以及网络协议学习的重要工具。64位版本的Wireshark适用于运行64位操作系统的计算机,如Windows 7和8。在这个安装包中,主要包含两个文件:Wireshark-win64-2.2.1.exe是Wireshark的64位安装程序,下载帮助.txt则可能提供有关如何下载和安装软件的指导。 1. **Wireshark的基本功能**: - **数据包捕获**:Wireshark能够实时捕获来自网络接口的数据包,包括各种协议如TCP/IP、HTTP、FTP等。 - **协议解析**:它能解析并显示数据包的详细结构,帮助用户理解网络通信过程。 - **过滤与搜索**:提供强大的过滤器语言,可以快速定位特定类型的网络流量。同时,可以搜索数据包内容,便于分析。 - **颜色编码**:根据数据包的不同特性,如异常或潜在问题,使用不同颜色高亮显示。 - **解码与重构**:能够解码多种协议,并在重组TCP流时呈现会话的完整视图。
recommend-type

Copley驱动器软件CME使用手册

运动控制系统使用手册
recommend-type

汽车传感器详解:超声波检测涡流式空气流量传感器

"本文主要介绍了汽车传感器的各种类型和其中的超声波检测涡流式空气流量传感器的工作原理及电路。汽车传感器包括温度传感器、空气流量传感器、压力传感器、位置与角度传感器、速度与加速度传感器、振动传感器以及气体浓度传感器等,每个类型的传感器都在汽车的不同系统中起到关键的作用。" 在汽车工程中,传感器扮演着至关重要的角色,它们负责收集各种物理和化学信号,以确保引擎和其他系统的高效运行。超声波检测涡流式空气流量传感器是其中的一种,它通过检测空气流经传感器时产生的涡流来精确测量进入发动机的空气质量。这种技术提供了更准确的数据,有助于优化燃油喷射和点火正时,从而提高发动机性能和燃油效率。 温度传感器是汽车中最常见的传感器之一,包括水温传感器、空气温度传感器等,它们用于监控发动机及其周围环境的温度状态,以确保引擎在适宜的温度下运行并防止过热。例如,水温传感器检测发动机冷却水的温度,其信号用于调整燃油混合比和点火提前角。 空气流量传感器有多种类型,如翼片式、卡门涡旋式(包括超声波式)、热线式和热膜式。这些传感器的主要任务是测量进入发动机的空气流量,以便控制燃油喷射量,保证燃烧的充分。超声波式空气流量传感器利用超声波频率的变化来确定空气流动的速度,从而计算流量。 压力传感器则用于监测进气歧管压力、大气压力以及各种液体的压力,例如机油、刹车液、空调系统压力等,以确保系统正常运行并预防故障。 位置与角度传感器,如节气门位置传感器和转向角度传感器,提供关于发动机工况和车辆方向的关键信息。速度与加速度传感器,如曲轴位置传感器和车速传感器,帮助确定发动机的工作周期和车辆的行驶速度,对于发动机管理和防抱死刹车系统(ABS)至关重要。 振动传感器,如碰撞传感器和爆震传感器,用于检测车辆的振动和冲击,确保安全系统如安全气囊和发动机管理系统能在必要时做出反应。 气体浓度传感器,如氧传感器和烟雾浓度传感器,监测尾气中的氧气和有害物质含量,以调整空燃比,降低排放,并提高燃油经济性。 学习传感器的知识,不仅要知道它们的作用、安装位置,还要了解其结构、工作原理、电路图,以及如何进行静态和动态检测,包括电阻测量、电源电压检测和信号电压测量,甚至进行波形分析,这些都是汽车维修和诊断的重要技能。例如,水温传感器在不同温度下的电阻值是检测其是否正常工作的依据,如桑塔纳2000GSi轿车的水温传感器在0℃时电阻为6kΩ,随着温度升高,电阻逐渐减小。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

SVM分类算法与其他分类算法的巅峰对决:谁是分类之王?

![SVM分类算法与其他分类算法的巅峰对决:谁是分类之王?](https://img-blog.csdnimg.cn/img_convert/b9aa536ef68773bf76dd670866205601.png) # 1. 分类算法概述 分类算法是机器学习中用于将数据点分配到预定义类别的技术。它们广泛应用于各种领域,包括模式识别、自然语言处理和金融预测。分类算法有多种类型,每种算法都有其独特的优势和劣势。 在本章中,我们将讨论分类算法的基本原理,包括监督学习、特征选择和模型评估。我们将介绍各种常见的分类算法,例如支持向量机(SVM)、决策树和朴素贝叶斯。我们将探讨这些算法的优点和缺点,
recommend-type

obsidian的ios

Obsidian是一款非常受欢迎的基于Markdown的笔记应用,它最初是为Windows和Mac设计的,后来也推出了iOS版本。在iOS上,Obsidian为用户提供了跨平台的同步功能,允许你在iPhone、iPad等设备上方便地编辑和管理你的知识库。Obsidian iOS版支持离线查看、实时预览、丰富的插件系统以及强大的组织架构,包括网络、笔记本、文件夹和卡片等,让你能够创建深度链接和思维导图,打造个人的知识管理体系。 该应用的特点在于其支持自动化脚本(Zettelkasten实践)、内嵌Git版本控制,以及与其他Obsidian用户的协作工具。不过,由于Obsidian在移动设备上可
recommend-type

汽车传感器详解:类型、应用与检测要点

本文档主要介绍了汽车传感器技术的基础知识,涵盖了多种类型的传感器及其在汽车系统中的应用。以下是对各部分知识点的详细解析: 1. **传感器类型** - **温度传感器**:包括水温传感器、空气温度传感器、变速器油温传感器、排放温度传感器(催化剂温度传感器)、EGR监测温度传感器、车外温度传感器、车内温度传感器、日照温度传感器、蒸发器出口温度传感器以及电池温度传感器和热敏开关。 - **空气流量传感器**:有翼片式(叶片式)、卡门涡旋式(光电式和超声波式)、热线式和热膜式等类型。 - **压力传感器**:涉及进气管压力传感器、大气压力传感器、空气滤清器真空开关、机油压力开关、空调压力开关、制动系统油压传感器、主动悬架系统压力传感器、制动主缸油压传感器、蓄压器压力传感器和增压传感器。 - **位置与角度传感器**:如节气门位置传感器、转向角度传感器、光电式车高传感器和液位传感器。 - **速度与加速度传感器**:包括曲轴位置(转速)传感器(磁脉冲式、霍尔式或光电式)、上止点位置传感器、缸位判别传感器、车速传感器、输入轴转速传感器和轮速传感器,以及ABS加速度传感器。 - **振动传感器**:用于碰撞检测和爆震监测。 - **气体浓度传感器**:氧传感器(二氧化锆式和二氧化钛式)、稀薄混合气传感器和烟雾浓度传感器。 2. **学习传感器的知识要点** - **作用**:汽车传感器的核心功能是监测并测量各种物理参数,如温度、流量、压力、位置、速度、加速度等,以便于车辆控制系统进行精确的控制。 - **安装位置**:每种传感器通常被安装在对应系统的关键部位,如发动机冷却系统、进气道、刹车系统等。 - **结构**:涉及传感器的物理设计,如机械、电子元件的组合。 - **工作原理**:详细解释了传感器如何将物理信号转化为电信号的过程。 - **电路图**:展示了传感器在车辆电气系统中的连接方式和信号传输路径。 - **静态检测与动态检测**:介绍如何通过电阻、导通性、电源电压和信号电压等参数来检查传感器的工作状态。 - **波形分析**:对于某些类型的传感器,了解其输出信号的波形有助于理解其性能和故障诊断。 在学习和维护汽车传感器时,理解这些关键知识点至关重要,它们能够帮助我们更好地理解和维护车辆的电子系统,确保其正常运行和优化性能。