从本地C:\DIDI文件夹下多个文件夹内html数据中爬取ID、注册号码、发送ID、接受ID、聊天内容

要从本地多个文件夹内的 HTML 文件中爬取 ID、注册号码、发送 ID、接收 ID 和聊天内容，你可以使用 Python 的 `BeautifulSoup` 库进行 HTML 解析和数据提取。同时，你可以使用 Python 的 `os` 库来遍历文件夹和文件。下面是一个示例代码，展示了如何实现这个过程： ```python from bs4 import BeautifulSoup import csv import os # 定义要提取的字段名称 fields = ['ID', '注册号码', '发送ID', '接收ID', '聊天内容'] # 创建 CSV 文件并写入表头 with open('chat_data.csv', 'w', newline='', encoding='utf-8') as file: writer = csv.writer(file) writer.writerow(fields) # 遍历文件夹下的子文件夹 for root, dirs, files in os.walk('C:\\DIDI'): for folder in dirs: folder_path = os.path.join(root, folder) # 遍历子文件夹中的 HTML 文件 for filename in os.listdir(folder_path): if filename.endswith('.html'): # 打开 HTML 文件并解析数据 with open(os.path.join(folder_path, filename), 'r', encoding='utf-8') as html_file: soup = BeautifulSoup(html_file, 'html.parser') # 提取所需的数据 data = [] data.append(soup.find('span', {'class': 'id'}).text.strip()) data.append(soup.find('span', {'class': 'registration-number'}).text.strip()) data.append(soup.find('span', {'class': 'sender-id'}).text.strip()) data.append(soup.find('span', {'class': 'receiver-id'}).text.strip()) data.append(soup.find('div', {'class': 'chat-content'}).text.strip()) # 写入数据到 CSV 文件 writer.writerow(data) print('数据导出完成！') ``` 在这个示例中，我们首先定义要提取的字段名称，并创建一个名为 `chat_data.csv` 的 CSV 文件，并写入表头。然后，我们使用 `os.walk` 函数遍历文件夹 `C:\DIDI` 及其子文件夹。在每个子文件夹中，我们遍历 HTML 文件并打开每个文件进行解析。然后，使用 `BeautifulSoup` 提取每个字段的数据，并将数据添加到 `data` 列表中。最后，我们使用 `csv.writer` 将每一行的数据写入到 CSV 文件中。请确保将 `'C:\\DIDI'` 替换为包含 HTML 文件的实际文件夹路径。运行这个代码后，你将在当前目录下找到一个名为 `chat_data.csv` 的文件，其中包含了提取的 ID、注册号码、发送 ID、接收 ID 和聊天内容。希望这可以帮助到你！如果你有其他问题，请随时提问。

阅读全文

从本地C:\DIDI文件夹下多个文件夹内html数据中爬取ID、注册号码、发送ID、接受ID、聊天内容

相关推荐

读取某一文件夹下多个不同数据文件名

月月.zip didi 数据集

android sdk platform-tools下的api文件夹中的annotations.zip

爬取本地H:\DIDI文件夹内多个文件夹下html中ID号，时间、发送号码、接受号码，信息类型、文件类型、发送内容数据并写入mysql数据库

didi---Tech:首届DiDi算法竞赛的前19名

didi-kuaidi:快递

Beijing_DIDI:滴滴gps轨迹分析

解决DiDi BI挑战：数据恢复与SQL分析

Traceback (most recent call last): File "C:\Users\test\PycharmProjects\pythonProject\爬取链接地址导入sql数据库.py", line 56, in <module> cursor.execute("UPDATE DIDI_talk SET file_name = ? WHERE id = ?", (data, i + 1)) sqlite3.OperationalError: no such column: id

Traceback (most recent call last): File "C:\Users\test\PycharmProjects\pythonProject\DIDI数据写入CSV.py", line 38, in <module> print("talkid:", talk_id) ^^^^^^^ NameError: name 'talk_id' is not defined

Traceback (most recent call last): File "C:\Users\test\PycharmProjects\pythonProject\DIDI数据写入CSV.py", line 82, in <module> writer.writerow([talk_id, time, send_id, receive_id, talk_type, content]) ^^^^^^^ NameError: name 'talk_id' is not defined

Traceback (most recent call last): File "C:\Users\test\PycharmProjects\pythonProject\DIDI数据写入CSV.py", line 63, in <module> writer.writerow([talk_id, time, send_id, receive_id, talk_type]) ValueError: I/O operation on closed file.

Traceback (most recent call last): File "C:\Users\test\PycharmProjects\pythonProject\爬取链接地址导入sql数据库.py", line 17, in <module> cursor.execute("ALTER TABLE DIDI_talk ADD COLUMN file_name TEXT") sqlite3.OperationalError: duplicate column name: file_name

Traceback (most recent call last): File "C:\Users\test\PycharmProjects\pythonProject\DIDI数据写入CSV.py", line 26, in <module> talk_id = message.find_previous('a').text.strip()[1:] ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ AttributeError: 'NoneType' object has no attribute 'text'

File "C:\Users\test\PycharmProjects\pythonProject\DIDI数据写入CSV.py", line 6 folder_path = 'C:\Users\test\Desktop\DIDItest' ^ SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape

Traceback (most recent call last): File "C:\Users\hasaki\PycharmProjects\pythonProject\1112233.py", line 44, in <module> c.execute("INSERT INTO DIDI_info VALUES (?,?,?,?,?)", data) sqlite3.OperationalError: table DIDI_info has 4 columns but 5 values were supplied

大家在看

AllegroENV设置大全.rar

工具类-经度纬度位置处理 以及 距离计算工具类，自用留存

毕业设计C++语言实现基于QT的仿宝石迷阵游戏项目源码.zip

PCIE2.0总线规范，用于PCIE开发参考.zip

3.三星校招真题与面经65页.pdf

最新推荐

vue计算属性+vue中class与style绑定(推荐)

2025最新全国水利安全生产知识竞赛题库（含答案）.docx

【雷达】非相干多视处理（CSA）Matlab代码.rar

Fortify代码扫描工具完整用户指南与安装手册

【VS2010-MFC实战秘籍】：串口数据波形显示软件入门及优化全解析

freesurfer完成处理后，如何批量提取每个被试aseg.stats的某个脑区的体积（volume）到一个table中，每个被试的数据是单独的一行

汽车共享使用说明书的开发与应用

BD3201电路维修全攻略：从入门到高级技巧的必备指南

如何在前端使用百度地图同时添加多个标记点？

审计Solidity项目：Turbo 360构建指南

工具类-经度纬度位置处理以及距离计算工具类，自用留存