网页源代码模板如下： [talkid:138031379]2014年4月20日 06:55:45 , 111222 向 342112 发送我们已经是好友了，开始聊天吧！ [talkid:137031381]2014年4月20日 03:55:45 , 2323234 在群 20011 中发言我们已经是好友了，开始聊天吧！ [talkid:137031382]2014年4月22日 04:45:45 , 2323234 在群 20011 中发言音频 :[<a href="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> [talkid:137031383]2014年4月23日 04:55:45 , 2323234 在群 20011 中发言图片 :[<a href="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> [talkid:137031384]2014年4月24日 05:55:45 , 2323234 在群 20011 中发言我们已经是好友了，开始聊天吧！ [talkid:137031385]2014年4月25日 06:55:45 , 2323234 在群 20011 中发言我们已经是好友了，开始聊天吧！ [talkid:138031387]2014年4月20日 04:45:45 , 2323234 向 543521 发送音频 :[<a href="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> [talkid:138031388]2014年4月20日 04:55:45 , 2323234 向 344532 发送图片 :[<a href="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> [talkid:138031389]2014年4月20日 05:55:45 , 2323234 向 323345 发送 1112232 [talkid:138031390]2014年4月20日 06:55:45 , 2323234 向 342114 发送我们已经是好友了，开始聊天吧！利用python爬虫，从中爬取ID、时间、发送号码、接收号码、消息（若消息中有文件链接地址则在消息中只输入提取的链接地址）

时间: 2023-10-18 12:04:27 浏览: 145

您可以使用Python的正则表达式模块re来提取您所需的信息。以下是一个示例代码，可以帮助您提取ID、时间、发送号码、接收号码和消息（如果消息中有文件链接地址，则只提取链接地址）： ```python import re html = """ 网页源代码... """ # 使用正则表达式匹配所需信息 pattern = r'\[talkid:(.*?)\](.*?) , (.*?) 向 (.*?) 发送 (.*?)$' matches = re.findall(pattern, html, re.MULTILINE) # 提取匹配到的信息 for match in matches: talkid = match[0] time = match[1] sender = match[2] receiver = match[3] message = match[4] # 如果消息中有文件链接地址，则只提取链接地址 file_link = re.findall(r'<a href="(.*?)">', message) if file_link: message = file_link[0] # 打印提取的信息 print(f"ID: {talkid}") print(f"时间: {time}") print(f"发送号码: {sender}") print(f"接收号码: {receiver}") print(f"消息: {message}") print() ``` 请注意，以上代码假设您已将网页源代码存储在`html`变量中。您需要根据实际情况进行调整。

阅读全文

相关推荐

detekt-hint：检测Kotlin中作为detekt插件的设计原则冲突

grunt-ng-attr-hint:ng-attr-hint的Grunt插件（用于角度ng指令的静态掉毛工具）

hint-hint:关于何时以及如何使用 Clojure 类型提示的活文档

[talkid:137031385]2014年4月25日 06:55:45 , 2323234 在群 20011 中发言 我们已经是好友了，开始聊天吧！使用python爬虫提取上述“发言”后的文字

CheckersGame-with-Hint-button:Java开发的Checkers游戏，带有提示按钮和自动建议

ng-codemirror-dictionary-hint:Angular指令，可基于自定义字典向Codemirror实例添加提示支持

react-hint:用于React，Preact，Inferno的工具提示组件

scroll-hint：一个JS库，建议使用指针图标可水平滚动元素

static-site-generator-template：由Shake，Lucid和Hint支持的静态站点生成器模板

react-autocomplete-hint:自动完成提示的React组件

关于微信小程序的支付开发：40013错误

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

（参考GUI）MATLAB GUI漂浮物垃圾分类检测.zip

人脸识别_OpenCV_活体检测_证件照拍照_Demo_1741778955.zip

人脸识别_科大讯飞_Face_签到系统_Swface_1741770704.zip

大家在看

定位面研磨-半导体材料

iometer使用指南

基于yoloV4目标检测框架，baidu语音识别，控制西门子1200PLC.zip

千方百剂服务器及客户端安装白皮书

Linux下rsync文件同步详解

最新推荐

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

（参考GUI）MATLAB GUI漂浮物垃圾分类检测.zip

人脸识别_OpenCV_活体检测_证件照拍照_Demo_1741778955.zip

人脸识别_科大讯飞_Face_签到系统_Swface_1741770704.zip

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

[talkid:137031385]2014年4月25日 06:55:45 , 2323234 在群 20011 中发言我们已经是好友了，开始聊天吧！使用python爬虫提取上述“发言”后的文字

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集