网页内源代码模板如下： <html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"> <head> <link href="http://192.167.1.101/hint.css" rel="stylesheet"></link> </head> <body>[talkid:138031361]2014年4月20日 03:55:45 , 434343 向 232323 发送我们已经是好友了，开始聊天吧！ () [talkid:138031362]2014年4月20日 04:45:45 , 434343 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> () [talkid:138031363]2014年4月20日 04:55:45 , 434343 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> () [talkid:138031364]2014年4月20日 05:55:45 , 434343 向 3234221 发送我们已经是好友了，开始聊天吧！ () [talkid:138031365]2014年4月20日 06:55:45 , 434343 向 1359075 发送我们已经是好友了，开始聊天吧！ () </body> </html> 利用python爬虫，打开C:/Users/test/Desktop/DIDItest文件夹下多个文件夹内的html文件源代码，并爬取源代码中的ID、时间、发送号码、接收号码、发送内容，如果发送内容为音频则提取音频所在位置，反之则保留发送内容，并将爬取的内容写入csv中

时间: 2023-08-14 11:59:00 浏览: 79

你可以使用Python的BeautifulSoup库来解析HTML代码，并使用正则表达式来提取所需的数据。下面是一个示例代码，它可以打开指定文件夹下的所有HTML文件，解析源代码，并将提取的数据写入CSV文件： ```python import os import re import csv from bs4 import BeautifulSoup # 设置文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 创建CSV文件并写入表头 csv_file = open("output.csv", "w", newline="", encoding="utf-8") csv_writer = csv.writer(csv_file) csv_writer.writerow(["ID", "时间", "发送号码", "接收号码", "发送内容"]) # 遍历文件夹下的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: if file.endswith(".html"): file_path = os.path.join(root, file) # 打开HTML文件并读取源代码 with open(file_path, "r", encoding="utf-8") as html_file: source_code = html_file.read() # 使用BeautifulSoup解析HTML soup = BeautifulSoup(source_code, "html.parser") # 提取ID、时间、发送号码、接收号码、发送内容 talk_id = re.search(r"\[talkid:(\d+)\]", source_code).group(1) time = re.search(r"\d{4}年\d{1,2}月\d{1,2}日 \d{2}:\d{2}:\d{2}", source_code).group() send_number = re.search(r"(\d+)", source_code).group(1) receive_number = re.findall(r"(\d+)", source_code)[1] content = re.search(r"\s*\(\)\s*", source_code).group() # 如果发送内容为音频，则提取音频所在位置 if "音频" in content: audio_url = re.search(r"<ahref=\"(.*?)\"]>音频</a>", source_code).group(1) content = audio_url # 写入CSV文件 csv_writer.writerow([talk_id, time, send_number, receive_number, content]) # 关闭CSV文件 csv_file.close() ``` 请注意，上述代码假设每个HTML文件中都只有一个聊天记录块，并且数据的提取模式是固定的。如果HTML文件的结构有所不同，你可能需要调整正则表达式来匹配正确的数据。此外，你还可以根据需要添加异常处理以提高代码的健壮性。

阅读全文

相关推荐

40个有创意的html+css网页源代码模板.rar

html源代码网页模板文件

获取网页源码代码

获取网页源代码

毕设和企业适用springboot企业数据管理平台类及跨境电商管理平台源码+论文+视频.zip

基于net的超市管理系统源代码（完整前后端+sqlserver+说明文档+LW）.zip

LABVIEW程序实例-公式节点.zip

毕设和企业适用springboot社交应用平台类及用户数据分析平台源码+论文+视频.zip

大米商城开源版damishop(适合外贸)

LABVIEW程序实例-通过全局变量接收数据.zip

毕设和企业适用springboot生鲜鲜花类及生物识别平台源码+论文+视频.zip

毕设和企业适用springboot企业健康管理平台类及视觉识别平台源码+论文+视频.zip

毕设和企业适用springboot视频编辑类及餐饮管理平台源码+论文+视频.zip

LABVIEW程序实例-日历控件.zip

毕设和企业适用springboot社区物业类及智能仓储平台源码+论文+视频.zip

毕设和企业适用springboot企业知识管理平台类及人工智能医疗平台源码+论文+视频.zip

毕设和企业适用springboot汽车电商类及新闻传播平台源码+论文+视频.zip

毕设和企业适用springboot生鲜鲜花类及全渠道电商平台源码+论文+视频.zip

最新推荐

毕设和企业适用springboot企业数据管理平台类及跨境电商管理平台源码+论文+视频.zip

基于net的超市管理系统源代码（完整前后端+sqlserver+说明文档+LW）.zip

LABVIEW程序实例-公式节点.zip

毕设和企业适用springboot社交应用平台类及用户数据分析平台源码+论文+视频.zip

大米商城开源版damishop(适合外贸)

Windows平台下的Fastboot工具使用指南

管理建模和仿真的文件

DLMS规约深度剖析：从基础到电力通信标准的全面掌握

修改代码，使其正确运行

Python机器学习基础入门与项目实践