<html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"> <head> <link href="http://192.167.1.101/hint.css" rel="stylesheet"></link> </head> <body>[talkid:138031370]2014年4月20日 03:55:45 , 111222 向 232323 发送我们已经是好友了，开始聊天吧！ () [talkid:138031371]2014年4月20日 04:45:45 , 111222 向 123456 发送音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> () [talkid:138031372]2014年4月20日 04:55:45 , 111222 向 123456 发送图片 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> () [talkid:138031373]2014年4月20日 05:55:45 , 111222 向 3234221 发送我们已经是好友了，开始聊天吧！ () [talkid:138031374]2014年4月20日 06:55:45 , 111222 向 1359075 发送我们已经是好友了，开始聊天吧！ () </body> </html>利用python爬虫，打开C:/Users/test/Desktop/DIDItest文件夹下多个文件夹内的html文件源代码，并爬取源代码中的ID、时间、发送号码、接收号码、发送内容，如果发送内容不为文本，则提取文件所在链接地址，并将爬取的内容写入csv中

时间: 2023-08-14 18:58:17 浏览: 118

您可以使用以下代码来实现您的要求： ```python from bs4 import BeautifulSoup import csv import os # 设置文件夹路径 folder_path = 'C:/Users/test/Desktop/DIDItest' # 创建CSV文件 csv_file = open('output.csv', 'w', newline='') csv_writer = csv.writer(csv_file) csv_writer.writerow(['ID', '时间', '发送号码', '接收号码', '发送内容']) # 遍历文件夹下的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: if file.endswith('.html'): file_path = os.path.join(root, file) # 打开文件并解析HTML源代码 with open(file_path, 'r', encoding='utf-8') as f: soup = BeautifulSoup(f, 'html.parser') # 提取数据并写入CSV文件 talkid = soup.find_all('p') for talk in talkid: text = talk.get_text(strip=True) data = text.split(',') if len(data) >= 2: row = [data[0].strip(), data[1].strip()] hint_success = talk.find_all('span', class_='hint-success') for hint in hint_success: row.append(hint.get_text(strip=True)) a_tag = talk.find('a') if a_tag: row.append(a_tag['href']) else: row.append('') csv_writer.writerow(row) # 关闭CSV文件 csv_file.close() ``` 这段代码与之前的代码类似，但在提取数据时进行了一些调整。它将遍历指定文件夹下的所有`.html`文件，解析源代码并提取所需的数据，然后将其写入名为`output.csv`的CSV文件中。请注意，此代码假设每个`.html`文件中包含多个``标签，每个标签对应一条聊天记录。如果您的实际情况不同，请根据您的HTML源代码结构进行适当的调整。同样，确保您已经安装了BeautifulSoup和csv库，并根据需要修改文件夹路径和输出文件名。

阅读全文

相关推荐

HTML中的<head>和</head>：理解与应用

HTML head结构详解与常用元素解析

HTML head标签详解：构建高效网页头部

以下代码是什么意思：<head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <title>网站首页</title> </head>

<head> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=device-width, initial-scale=1.0,user-scalable=no"> <title>Document</title> </head>

<head> <title>Home</title> <meta name="viewport" content="width=device-width, initial-scale=1"> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <meta name="keywords" content="" /> <script src="js/modernizr.custom.js"></script> </head>

<head> <meta charset="utf-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=device-width,initial-scale=1.0"> <title>在线书店</title> </head>

理解HTML head头结构与优化技巧

HTML中的letter-spacing属性与文本布局

基于纯verilogFPGA的双线性差值视频缩放 功能：利用双线性差值算法，pc端HDMI输入视频缩小或放大，然后再通过HDMI输出显示，可以任意缩放 缩放模块仅含有ddr ip，手写了 ram,f

【java毕业设计】智慧社区智慧社区管理员密码修改与重置系统（源代码+论文+PPT模板）.zip

最新推荐

基于纯verilogFPGA的双线性差值视频缩放 功能：利用双线性差值算法，pc端HDMI输入视频缩小或放大，然后再通过HDMI输出显示，可以任意缩放 缩放模块仅含有ddr ip，手写了 ram,f

【java毕业设计】智慧社区智慧社区管理员密码修改与重置系统（源代码+论文+PPT模板）.zip

基于51单片机的一个智能密码锁设计.7z

《STM32单片机+2x180-SG90+2x360-SG90+OLED屏幕》源代码

pyside6-qml-modern-uiapp

JavaScript实现的高效pomodoro时钟教程

管理建模和仿真的文件

【WebLogic客户端兼容性提升秘籍】：一站式解决方案与实战案例

使用jupyter读取文件“近5年考试人数.csv”，绘制近5年高考及考研人数发展趋势图，数据如下（单位：万人）。

CMake 3.25.3版本发布：程序员必备构建工具

基于纯verilogFPGA的双线性差值视频缩放功能：利用双线性差值算法，pc端HDMI输入视频缩小或放大，然后再通过HDMI输出显示，可以任意缩放缩放模块仅含有ddr ip，手写了 ram,f

基于纯verilogFPGA的双线性差值视频缩放功能：利用双线性差值算法，pc端HDMI输入视频缩小或放大，然后再通过HDMI输出显示，可以任意缩放缩放模块仅含有ddr ip，手写了 ram,f