网页内源代码模板如下： <html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"> <head> <link href="http://192.167.1.101/hint.css" rel="stylesheet"></link> </head> <body>[talkid:138031370]2014年4月20日 03:55:45 , 111222 向 232323 发送我们已经是好友了，开始聊天吧！ () [talkid:138031371]2014年4月20日 04:45:45 , 111222 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> () [talkid:138031372]2014年4月20日 04:55:45 , 111222 向 123456 发送图片 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> () </body> </html> 利用python爬虫，打开C:/Users/test/Desktop/DIDItest文件夹下多个文件夹内的html文件源代码，并爬取源代码中的ID、时间、发送号码、接收号码、发送内容，如果发送内容不为文本，则提取文件所在链接地址，并将爬取的内容写入csv中

时间: 2023-08-14 18:58:17 浏览: 74

您可以使用Python的BeautifulSoup库来解析HTML源代码，然使用csv库将数据写入CSV文件。以下是一个示例代码，可以帮助您实现这个功能： ```python from bs4 import BeautifulSoup import csv import os # 设置文件夹路径 folder_path = 'C:/Users/test/Desktop/DIDItest' # 创建CSV文件 csv_file = open('output.csv', 'w', newline='') csv_writer = csv.writer(csv_file) csv_writer.writerow(['ID', '时间', '发送号码', '接收号码', '发送内容']) # 遍历文件夹下的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: if file.endswith('.html'): file_path = os.path.join(root, file) # 打开文件并解析HTML源代码 with open(file_path, 'r', encoding='utf-8') as f: soup = BeautifulSoup(f, 'html.parser') # 提取数据并写入CSV文件 talkid = soup.find('body').find_all('p') for talk in talkid: text = talk.get_text(strip=True) data = text.split(',') if len(data) >= 2: row = [data[0].strip(), data[1].strip()] hint_success = talk.find_all('span', class_='hint-success') for hint in hint_success: row.append(hint.get_text(strip=True)) a_tag = talk.find('a') if a_tag: row.append(a_tag['href']) else: row.append('') csv_writer.writerow(row) # 关闭CSV文件 csv_file.close() ``` 请确保您已经安装了BeautifulSoup和csv库。此代码将遍历指定文件夹下的所有`.html`文件，解析源代码并提取所需的数据，然后将其写入名为`output.csv`的CSV文件中。您可以根据需要修改文件夹路径和输出文件名。注意：这只是一个示例代码，您可能需要根据实际情况进行适当的调整和错误处理。

相关推荐

具有内源性产品信息的位置竞价：为什么直播广告蓬勃发展-研究论文

具有逐步退货的上次购买和控制策略：工厂控制系统中的案例研究-研究论文

大数据-算法-液相色谱及其质谱联用技术在水稻内源活性物质定量分析中的应用研究.pdf

org-audit-action:提供组织成员审核的 GitHub 操作

数据回归-用回归分析法测定猪钙、磷内源排泄量和豆粕钙、磷的真消化率.pdf

基于 Vox Populi 的参与决策对​​内源截断偏差的半参数校正-研究论文

CupidTool:Cupid：同时重建 miRNA 目标和 ceRNA 网络-开源

circrna:circRNA定量，差异表达分析和miRNA靶标预测RNA-Seq数据

中断中断：社交媒体和性能的数字实验-研究论文

biol-4386-course-project-tvarovski:GitHub Classroom创建的biol-4386-course-project-tvarovski

人工智能-机器学习-利用RNAi技术抑制ERβ表达对人成骨细胞株hFOB 1.pdf

用酵母双杂交系统研究蛋白质-蛋白质相互作用ppt课件.pptx

arabidopsis-nutrition-tor:拟南芥营养仪

精品资料（2021-2022年收藏）武汉大学商业银行经营管理期末复习总结.docx

matlab分时代码-LAceModule:花边模块

地县级城市建设道路清扫保洁面积 道路清扫保洁面积道路机械化清扫保洁面积 省份 城市.xlsx

从网站上学习到了路由的一系列代码

基于AT89C51单片机的可手动定时控制的智能窗帘设计.zip-11

最新推荐

地县级城市建设道路清扫保洁面积 道路清扫保洁面积道路机械化清扫保洁面积 省份 城市.xlsx

从网站上学习到了路由的一系列代码

基于AT89C51单片机的可手动定时控制的智能窗帘设计.zip-11

007_insert_seal_approval_cursor.sql

springboot072基于JavaWeb技术的在线考试系统设计与实现.zip

基于嵌入式ARMLinux的播放器的设计与实现 word格式.doc

管理建模和仿真的文件

Python字符串为空判断的动手实践：通过示例掌握技巧

box-sizing: border-box;作用是？

经典：大学答辩通过_基于ARM微处理器的嵌入式指纹识别系统设计.pdf

基于 Vox Populi 的参与决策对内源截断偏差的半参数校正-研究论文

地县级城市建设道路清扫保洁面积道路清扫保洁面积道路机械化清扫保洁面积省份城市.xlsx

地县级城市建设道路清扫保洁面积道路清扫保洁面积道路机械化清扫保洁面积省份城市.xlsx