网页内源代码模板如下： <html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"> <head> <link href="http://192.167.1.101/hint.css" rel="stylesheet"></link> </head> <body>[talkid:138031370]2014年4月20日 03:55:45 , 111222 向 232323 发送我们已经是好友了，开始聊天吧！ () [talkid:138031371]2014年4月20日 04:45:45 , 111222 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> () [talkid:138031372]2014年4月20日 04:55:45 , 111222 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> () [talkid:138031373]2014年4月20日 05:55:45 , 111222 向 3234221 发送我们已经是好友了，开始聊天吧！ () [talkid:138031374]2014年4月20日 06:55:45 , 111222 向 1359075 发送我们已经是好友了，开始聊天吧！ () </body> </html> 利用python爬虫，打开C:/Users/test/Desktop/DIDItest文件夹下多个文件夹内的html文件源代码，并爬取源代码中的ID、时间、发送号码、接收号码、发送内容，如果发送内容为音频则提取音频所在位置，反之则保留发送内容，并将爬取的内容写入csv中

时间: 2023-08-14 11:58:17 浏览: 63

以下是一个示例的Python爬虫代码，用于打开指定文件夹下的多个HTML文件，并从源代码中提取ID、时间、发送号码、接收号码和发送内容，并将结果写入CSV文件。 ```python import os import csv from bs4 import BeautifulSoup # 设置文件夹路径 folder_path = 'C:/Users/test/Desktop/DIDItest' # 创建CSV文件并写入表头 csv_file = open('output.csv', 'w', newline='', encoding='utf-8') csv_writer = csv.writer(csv_file) csv_writer.writerow(['ID', '时间', '发送号码', '接收号码', '发送内容']) # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file_name in files: if file_name.endswith('.html'): file_path = os.path.join(root, file_name) # 打开HTML文件并读取源代码 with open(file_path, 'r', encoding='utf-8') as file: html_content = file.read() # 使用BeautifulSoup解析HTML源代码 soup = BeautifulSoup(html_content, 'html.parser') # 提取ID、时间、发送号码、接收号码和发送内容 talk_id = soup.find('body').find('span', class_='hint-success').text.strip() time = talk_id.split(',')[0][1:] send_phone = soup.find('body').find_all('span', class_='hint-success')[0].text.strip() receive_phone = soup.find('body').find_all('span', class_='hint-success')[1].text.strip() content_tag = soup.find('body').find('p') if content_tag.find('a'): content = content_tag.find('a')['href'] else: content = content_tag.text.strip() # 将提取的数据写入CSV文件 csv_writer.writerow([talk_id, time, send_phone, receive_phone, content]) # 关闭CSV文件 csv_file.close() ``` 请注意，此代码使用了`BeautifulSoup`库来解析HTML源代码，因此您需要确保已经安装了该库。可以使用`pip install beautifulsoup4`命令来安装它。另外，该代码只处理了提取数据的部分，如果需要进一步处理音频文件或其他内容，请根据实际需求进行修改。

相关推荐

具有逐步退货的上次购买和控制策略：工厂控制系统中的案例研究-研究论文

org-audit-action:提供组织成员审核的 GitHub 操作

数据回归-用回归分析法测定猪钙、磷内源排泄量和豆粕钙、磷的真消化率.pdf

circrna:circRNA定量，差异表达分析和miRNA靶标预测RNA-Seq数据

第二篇-第一章-基因工程药物-23节.ppt

CupidTool:Cupid：同时重建 miRNA 目标和 ceRNA 网络-开源

银行业：金融供给侧改革正在进行时-20190529-财富证券-22页.pdf

基于白冠鸡优化算法COOT-Kmean-Transformer-GRU实现数据回归预测算法研究Matlab代码.rar

源代码-wap站长论坛 手机建站程序.zip

【SCI1区】Matlab实现鱼鹰优化算法OOA-Transformer-GRU故障诊断算法研究.rar

【创新发文无忧】Matlab实现侏儒猫鼬优化算法DMO-Kmean-Transformer-GRU故障诊断算法研究.rar

06-肖勇-云南铝业能源管理中心项目案例分享与商机分析.pptx

【创新发文无忧】Matlab实现白鲸优化算法BWO-Kmean-Transformer-GRU故障诊断算法研究.rar

小程序-仿网易蜗牛读书.zip

【JCR2区】Matlab实现狮群优化算法LSO-LSSVM实现数据分类算法研究.rar

基于Springboot的自媒体社区平台 Javaee项目，springboot项目

基于JavaWeb开发的人力资源管理系统（源代码+数据库）.rar

【SCI1区】Matlab实现海鸥优化算法SOA-Transformer-GRU故障诊断算法研究.rar

最新推荐

基于白冠鸡优化算法COOT-Kmean-Transformer-GRU实现数据回归预测算法研究Matlab代码.rar

源代码-wap站长论坛 手机建站程序.zip

【SCI1区】Matlab实现鱼鹰优化算法OOA-Transformer-GRU故障诊断算法研究.rar

【创新发文无忧】Matlab实现侏儒猫鼬优化算法DMO-Kmean-Transformer-GRU故障诊断算法研究.rar

06-肖勇-云南铝业能源管理中心项目案例分享与商机分析.pptx

计算机系统基石：深度解析与优化秘籍

管理建模和仿真的文件

PHP数据库操作实战：手把手教你掌握数据库操作精髓，提升开发效率

vue-worker

《ThinkingInJava》中文版：经典Java学习宝典

源代码-wap站长论坛手机建站程序.zip

源代码-wap站长论坛手机建站程序.zip