网页内源代码模板如下： <html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"> <head> <link href="http://192.167.1.101/hint.css" rel="stylesheet"></link> </head> <body>[talkid:138031370]2014年4月20日 03:55:45 , 111222 向 232323 发送我们已经是好友了，开始聊天吧！ () [talkid:138031371]2014年4月20日 04:45:45 , 111222 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> () [talkid:138031372]2014年4月20日 04:55:45 , 111222 向 123456 发送图片 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> () </body> </html> 利用python爬虫，打开C:/Users/test/Desktop/DIDItest文件夹下多个文件夹内的html文件源代码，并将源代码转换为字符串，爬取源代码字符串中的ID、时间、发送号码、接收号码、信息类型、发送内容，如果发送内容不为文本，则提取文件所在链接地址，并将爬取的内容写入csv中，talkid提取[]中talkid：后的数字、时间精确至年月日时分秒、发送号码提取第一个 data-hint"">之间的数字，接收号码提取第二个data-hint"">，信息类型就提取 发送与：之间的文字，如果没有：则定义为文字

时间: 2023-08-14 16:58:16 浏览: 67

您可以使用Python的BeautifulSoup库来解析HTML源代码，然后使用正则表达式来提取所需的信息。以下是一个示例代码，可以实现您的要求： ```python import os import re import csv from bs4 import BeautifulSoup # 文件夹路径 folder_path = 'C:/Users/test/Desktop/DIDItest' # 创建CSV文件并写入标题行 csv_file = open('output.csv', 'w', newline='') csv_writer = csv.writer(csv_file) csv_writer.writerow(['ID', '时间', '发送号码', '接收号码', '信息类型', '发送内容']) # 遍历文件夹 for root, dirs, files in os.walk(folder_path): for file_name in files: if file_name.endswith('.html'): file_path = os.path.join(root, file_name) # 读取HTML文件 with open(file_path, 'r', encoding='utf-8') as file: html = file.read() # 使用BeautifulSoup解析HTML soup = BeautifulSoup(html, 'html.parser') # 提取talkid talkid_match = re.search(r'\[talkid:(\d+)\]', html) talkid = talkid_match.group(1) if talkid_match else '' # 提取时间 time_match = re.search(r'\d{4}年\d{1,2}月\d{1,2}日 \d{2}:\d{2}:\d{2}', html) time = time_match.group() if time_match else '' # 提取发送号码 sender_match = re.search(r'(\d+)', html) sender = sender_match.group(1) if sender_match else '' # 提取接收号码 receiver_match = re.search(r'(\d+)', html[sender_match.end():]) receiver = receiver_match.group(1) if receiver_match else '' # 提取信息类型 type_match = re.search(r'(.*?)：', html) message_type = type_match.group(1) if type_match else '' # 提取发送内容 content_match = re.search(r'：(.*?)', html) content = content_match.group(1) if content_match else '' # 如果发送内容不是文本，提取链接地址 if not content: link_match = re.search(r'<ahref="(.*?)">', html) content = link_match.group(1) if link_match else '' # 写入CSV文件 csv_writer.writerow([talkid, time, sender, receiver, message_type, content]) # 关闭CSV文件 csv_file.close() ``` 请注意，以上代码仅提供了一个基本的示例，您可能需要根据实际情况进行修改和优化。此外，还需要安装BeautifulSoup库（可通过`pip install beautifulsoup4`命令进行安装）。希望能对您有所帮助！如果您有任何其他问题，请随时提问。

相关推荐

40个有创意的html+css网页源代码模板.rar

html源代码网页模板文件

网页源代码html

网页源代码 HTML

网页源代码 HTML

html5 css3 JavaScript响应式中文静态网页模板js源代码（220套网页模板）

基于springboot+vue开发社区医疗服务系统--附毕业论文+源代码+sql（毕业设计）.rar

基于 Java 实现的仿windows扫雷小游戏课程设计

uniapp版即时通讯软件 IM社交交友聊天系统 语音视频通话双端APP 聊天交友APP源码 （含搭建教程）-网盘链接下载

331ssm_mysql_jsp 小学数学在线测试系统.zip（可运行源码+sql文件+文档）

HTML+CSS+JS+JQ+Bootstrap的简约钉鞋商城网页.7z

HTML+CSS+JS+JQ+Bootstrap的扶贫项目动态展示响应式网页模板.7z

期末大作业-基于tensorflow的LSTM网络识别验证码python源代码+文档说明+数据

基于HTML+CSS+JS开发的网站-牛排品牌餐厅网页.7z

302ssm_mysql_jsp 团员管理系统.zip（可运行源码+sql文件+文档）

HTML+CSS+JS+JQ+Bootstrap的创意美食餐饮展示响应式网页.7z

HTML+CSS+JS+JQ+Bootstrap的精品美食响应式网页.7z

349ssm_mysql_jsp 大学生兼职平台.zip（可运行源码+sql文件+文档）

最新推荐

基于springboot+vue开发社区医疗服务系统--附毕业论文+源代码+sql（毕业设计）.rar

基于 Java 实现的仿windows扫雷小游戏课程设计

uniapp版即时通讯软件 IM社交交友聊天系统 语音视频通话双端APP 聊天交友APP源码 （含搭建教程）-网盘链接下载

331ssm_mysql_jsp 小学数学在线测试系统.zip（可运行源码+sql文件+文档）

HTML+CSS+JS+JQ+Bootstrap的简约钉鞋商城网页.7z

利用迪杰斯特拉算法的全国交通咨询系统设计与实现

管理建模和仿真的文件

【实战演练】基于TensorFlow的卷积神经网络图像识别项目

CD40110工作原理

全国交通咨询系统C++实现源码解析

uniapp版即时通讯软件 IM社交交友聊天系统语音视频通话双端APP 聊天交友APP源码（含搭建教程）-网盘链接下载

uniapp版即时通讯软件 IM社交交友聊天系统语音视频通话双端APP 聊天交友APP源码（含搭建教程）-网盘链接下载