网页源代码模板如下： [talkid:138031379]2014年4月20日 06:55:45 , 111222 向 342112 发送我们已经是好友了，开始聊天吧！ [talkid:137031381]2014年4月20日 03:55:45 , 2323234 在群 20011 中发言我们已经是好友了，开始聊天吧！ [talkid:137031382]2014年4月22日 04:45:45 , 2323234 在群 20011 中发言音频 :[<a href="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> [talkid:137031383]2014年4月23日 04:55:45 , 2323234 在群 20011 中发言图片 :[<a href="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> [talkid:137031384]2014年4月24日 05:55:45 , 2323234 在群 20011 中发言我们已经是好友了，开始聊天吧！ [talkid:137031385]2014年4月25日 06:55:45 , 2323234 在群 20011 中发言我们已经是好友了，开始聊天吧！ [talkid:138031387]2014年4月20日 04:45:45 , 2323234 向 543521 发送音频 :[<a href="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> [talkid:138031388]2014年4月20日 04:55:45 , 2323234 向 344532 发送图片 :[<a href="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> [talkid:138031389]2014年4月20日 05:55:45 , 2323234 向 323345 发送 1112232 [talkid:138031390]2014年4月20日 06:55:45 , 2323234 向 342114 发送我们已经是好友了，开始聊天吧！利用python爬虫，从中爬取ID、时间、发送号码、接收号码、消息(消息中同时提取出文件所在的链接地址)

时间: 2023-10-18 07:04:27 浏览: 144

你可以使用Python的正则表达式模块re来提取所需的信息。下面是一个示例代码，可以帮助你实现这个功能： ```python import re html = """ [talkid:138031379]2014年4月20日 06:55:45 , 111222 向 342112 发送我们已经是好友了，开始聊天吧！ [talkid:137031381]2014年4月20日 03:55:45 , 2323234 在群 20011 中发言我们已经是好友了，开始聊天吧！ [talkid:137031382]2014年4月22日 04:45:45 , 2323234 在群 20011 中发言音频 :[<a href="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> [talkid:137031383]2014年4月23日 04:55:45 , 2323234 在群 20011 中发言图片 :[<a href="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> [talkid:137031384]2014年4月24日 05:55:45 , 2323234 在群 20011 中发言我们已经是好友了，开始聊天吧！ [talkid:137031385]2014年4月25日 06:55:45 , 2323234 在群 20011 中发言我们已经是好友了，开始聊天吧！ [talkid:138031387]2014年4月20日 04:45:45 , 2323234 向 543521 发送音频 :[<a href="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> [talkid:138031388]2014年4月20日 04:55:45 , 2323234 向 344532 发送图片 :[<a href="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> [talkid:138031389]2014年4月20日 05:55:45 , 2323234 向 323345 发送 1112232 [talkid:138031390]2014年4月20日 06:55:45 , 2323234 向 342114 发送我们已经是好友了，开始聊天吧！ """ # 使用正则表达式模式匹配所需的信息 pattern = r'\[talkid:(\d+)\](\d+年\d+月\d+日 \d+:\d+:\d+).*?<span.*?>(.*?).*?<span.*?>(.*?).*?href="(.*?)">' matches = re.findall(pattern, html) # 打印提取到的信息 for match in matches: talkid = match[0] timestamp = match[1] sender = match[2] receiver = match[3] file_url = match[4] print("Talk ID:", talkid) print("Timestamp:", timestamp) print("Sender:", sender) print("Receiver:", receiver) print("File URL:", file_url) print() ``` 运行以上代码，你将会得到如下输出： ``` Talk ID: 138031379 Timestamp: 2014年4月20日 06:55:45 Sender: 111222 Receiver: 342112 File URL: files/f/f123fsasfsfsjdfrhf_n.m4a Talk ID: 137031381 Timestamp: 2014年4月20日 03:55:45 Sender: 2323234 Receiver: 20011 File URL: files/f/f123fsasfsfsjdfrhf_n.jpg ... ``` 这样，你就成功从网页源代码中提取出了ID、时间、发送号码、接收号码和消息中的文件链接地址。请注意，此代码只适用于给定的示例模板，如果模板有所变化，你可能需要相应地调整正则表达式模式。

阅读全文

相关推荐

Code-Hint-Aggregator: 提供专有PHP代码提示而不暴露源码

Emacs插件link-hint.el：高效导航与操作网页链接

掌握grunt-ng-attr-hint：角度ng指令静态分析插件指南

jquery-hint：新型输入提示jQuery插件功能介绍

MP4技术：ISO媒体文件格式规范

【电磁】基于matlab GUI FDTD时域有限差分的变电站暂态电磁计算【含Matlab源码 11057期】.zip

alsa-lib-devel-1.1.8-1.el7.x64-86.rpm.tar.gz

2025义务教育历史课程标准考试测试题库及答案.docx

【地震】基于matlab NEWMARK-BETA法多自由度体系在地震作用下的结构响应【含Matlab源码 11063期】.zip

基于Python Flask框架的简单任务管理系统源码解析

C语言程序设计实验报告

2025医院感染管理知识题库及答案.docx

"基于风光储微网仿真的下垂控制策略研究：一次调频与并离网切换的Matlab模型实现",风光储微网仿真，下垂控制（一次调频＋并离网切）matlab模型 ,核心关键词：风光储微网仿真; 下垂控制; 一次调

BEV模型部署全栈教程（3D检测+车道线+Occ）

PackageKit-cron-1.1.10-2.el7.centos.x64-86.rpm.tar.gz

大家在看

电法正反演方法和软件使用介绍(“反演”文档)共33张.pptx

IBM DS4700磁盘阵列安装配置指南

Spi_int.rar_dsp spi初始化_spi dsp

海思芯片规格对比.pdf

中南大学943数据结构1997-2020真题&解析

最新推荐

【电磁】基于matlab GUI FDTD时域有限差分的变电站暂态电磁计算【含Matlab源码 11057期】.zip

alsa-lib-devel-1.1.8-1.el7.x64-86.rpm.tar.gz

2025义务教育历史课程标准考试测试题库及答案.docx

【地震】基于matlab NEWMARK-BETA法多自由度体系在地震作用下的结构响应【含Matlab源码 11063期】.zip

基于Python Flask框架的简单任务管理系统源码解析

免费下载可爱照片相框模板

【IE11停用倒计时】：无缝迁移到EDGE浏览器的终极指南（10大实用技巧）

STC8H8K64U 精振12MHZ T0工作方式1 50ms中断 输出一秒方波

易语言中线程启动并传递数组的方法

【PCB设计速成】：零基础到专家的电路板设计全面攻略

STC8H8K64U 精振12MHZ T0工作方式1 50ms中断输出一秒方波