利用python爬虫，提取C:/Users/test/Desktop/DIDItest文件夹下多个文件内的html文件源代码，并提取源代码中的ID、时间、发送号码、接收号码、发送内容，如果发送内容为音频则提取音频所在位置，反之则保留发送内容，并将爬取的内容写入csv中其中一个网页内源代码模板如下： <html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"> <head> <link href="http://192.167.1.101/hint.css" rel="stylesheet"></link> </head> <body>[talkid:138031361]2014年4月20日 03:55:45 , 434343 向 232323 发送我们已经是好友了，开始聊天吧！ () [talkid:138031362]2014年4月20日 04:45:45 , 434343 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> () [talkid:138031363]2014年4月20日 04:55:45 , 434343 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> () [talkid:138031364]2014年4月20日 05:55:45 , 434343 向 3234221 发送我们已经是好友了，开始聊天吧！ () [talkid:138031365]2014年4月20日 06:55:45 , 434343 向 1359075 发送我们已经是好友了，开始聊天吧！ () </body> </html>

时间: 2023-08-14 14:58:26 浏览: 104

你可以使用Python的爬虫库BeautifulSoup和csv库来提取文件夹中的HTML文件源代码，并从源代码中提取所需的信息。以下是一个示例代码，可以满足你的需求： ```python import os import csv from bs4 import BeautifulSoup folder_path = 'C:/Users/test/Desktop/DIDItest' output_file = 'output.csv' # 定义要提取的字段 fields = ['ID', '时间', '发送号码', '接收号码', '发送内容'] # 创建CSV文件并写入字段名 with open(output_file, 'w', newline='', encoding='utf-8') as file: writer = csv.DictWriter(file, fieldnames=fields) writer.writeheader() # 遍历文件夹中的HTML文件 for filename in os.listdir(folder_path): if filename.endswith('.html'): file_path = os.path.join(folder_path, filename) # 打开HTML文件并解析源代码 with open(file_path, 'r', encoding='utf-8') as html_file: soup = BeautifulSoup(html_file, 'html.parser') # 提取所需的信息 for talkid in soup.find_all('span', class_='hint-success'): info = {} info['ID'] = talkid['talkid'] info['时间'] = talkid.next_sibling.strip().split(',')[0] info['发送号码'] = talkid.get_text() info['接收号码'] = talkid.find_next('span', class_='hint-success').get_text() info['发送内容'] = talkid.find_next('p').next_sibling.strip() # 如果发送内容为音频，则提取音频所在位置 if '音频' in info['发送内容']: audio_link = talkid.find_next('a')['href'] audio_path = os.path.join(folder_path, audio_link) info['发送内容'] = audio_path # 写入CSV文件 writer.writerow(info) ``` 你只需要将`folder_path`变量设置为你的文件夹路径，并将`output_file`变量设置为你想要保存结果的CSV文件路径。这个代码将遍历文件夹中的所有HTML文件，提取所需的信息，并将结果写入CSV文件中。如果发送内容是音频，则提取音频所在位置，否则保留发送内容。请确保安装了BeautifulSoup库，你可以使用`pip install beautifulsoup4`命令进行安装。

阅读全文

相关推荐

【python爬虫】通过python爬虫，爬取网页内容，并写入本地数据库（mysql，sqlserver）中。

WebScraping:《用Python进行网页爬取》用python写网络爬虫一书的源代码

用python写网络爬虫 的代码文件（没有书）

爬虫_python_一款更新抓取one文艺网站的代码的程序

2025最新全国水利安全生产知识竞赛题库（含答案）.docx

【雷达】非相干多视处理（CSA）Matlab代码.rar

使用 MATLAB 的实时人脸识别考勤系统Matlab代码.rar

elasticsearch8.17.1 docker镜像资源

基于java+ssm+mysql的校园二手交易平台 源码+数据库+论文(高分毕设项目).zip

iostat打印解析画图工具

fence-agents-compute-4.2.1-41.el7-9.6.x64-86.rpm.tar.gz

从倾斜边缘或倾斜狭缝计算 MTFMatlab代码.rar

大家在看

基于自适应权重稀疏典范相关分析的人脸表情识别

香港地铁的安全风险管理 (2007年)

彩虹聚合DNS管理系统V1.3+搭建教程

一种新型三维条纹图像滤波算法 图像滤波算法.pdf

节的一些关于非传统-华为hcnp-数通题库2020/1/16（h12-221）v2.5

最新推荐

2025最新全国水利安全生产知识竞赛题库（含答案）.docx

【雷达】非相干多视处理（CSA）Matlab代码.rar

使用 MATLAB 的实时人脸识别考勤系统Matlab代码.rar

elasticsearch8.17.1 docker镜像资源

基于java+ssm+mysql的校园二手交易平台 源码+数据库+论文(高分毕设项目).zip

Fortify代码扫描工具完整用户指南与安装手册

【VS2010-MFC实战秘籍】：串口数据波形显示软件入门及优化全解析

freesurfer完成处理后，如何批量提取每个被试aseg.stats的某个脑区的体积（volume）到一个table中，每个被试的数据是单独的一行

汽车共享使用说明书的开发与应用

BD3201电路维修全攻略：从入门到高级技巧的必备指南

用python写网络爬虫的代码文件（没有书）

基于java+ssm+mysql的校园二手交易平台源码+数据库+论文(高分毕设项目).zip

一种新型三维条纹图像滤波算法图像滤波算法.pdf

基于java+ssm+mysql的校园二手交易平台源码+数据库+论文(高分毕设项目).zip