Traceback (most recent call last): File "C:\Users\test\Desktop\DIDI测试.py", line 55, in <module> extract_html_info(file_path, csv_writer) File "C:\Users\test\Desktop\DIDI测试.py", line 25, in extract_html_info timestamp = p_tag.find_previous('body').find_previous('head').find('meta', {'http-equiv': 'Content=-Type'})[ ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ TypeError: 'NoneType' object is not subscriptable

时间: 2023-08-04 13:06:51 浏览: 105

这个错误是因为在提取时间戳时，找不到对应的元素导致的。可能是由于HTML结构的变化或者标签属性的不一致导致无法成功提取。你可以尝试修改代码以适应不同的HTML结构。以下是修改后的代码： ```python import os import re import csv from bs4 import BeautifulSoup # 设置html文件路径 folder_path = r'C:\Users\test\Desktop\DIDItest' output_file = r'C:\Users\test\Desktop\output.csv' # 提取html文件内所需要数据 def extract_html_info(file_path, csv_writer): with open(file_path, 'r', encoding='utf-8') as file: # 读取HTML源代码 html = file.read() soup = BeautifulSoup(html, 'html.parser') # 提取所有的<p>标签 p_tags = soup.find_all('p') for p_tag in p_tags: # 提取ID talk_id = p_tag.find_previous(string=lambda text: isinstance(text, str) and '[talkid:' in text) talk_id = talk_id.strip('[talkid:]') # 提取时间 timestamp = '' meta_tags = soup.find_all('meta', {'http-equiv': 'Content-Type'}) for meta_tag in meta_tags: if 'charset' not in meta_tag['content']: timestamp = meta_tag['content'] break # 提取发送号码 send_number = p_tag.find('span', {'class': 'hint-success'}).text # 提取接收号码 receive_number = p_tag.find_all('span', {'class': 'hint-success'})[1].text # 提取信息内容 message = p_tag.previous_sibling.strip() # 判断是否是音频 if '音频' in message: file_url = p_tag.find('a')['href'] csv_writer.writerow([talk_id, timestamp, send_number, receive_number, file_url]) else: csv_writer.writerow([talk_id, timestamp, send_number, receive_number, message]) # 创建CSV文件并写入数据 with open(output_file, 'w', newline='', encoding='utf-8') as file: csv_writer = csv.writer(file) csv_writer.writerow(['ID', '时间', '发送号码', '接收号码', '内容']) # 遍历文件夹及子文件夹，提取HTML文件信息 for root, dirs, files in os.walk(folder_path): for file in files: if file.endswith('.html'): file_path = os.path.join(root, file) extract_html_info(file_path, csv_writer) print("数据已成功写入CSV文件。") ``` 在这个修改后的代码中，我修改了提取时间戳的部分。我使用了一个循环来遍历所有的`meta`标签，并通过判断`content`属性中是否包含`charset`来排除不需要的标签。找到合适的标签后，将其`content`属性赋值给`timestamp`变量。希望这次能够顺利运行并正确提取时间戳！如果你还有其他问题，请随时提问。

阅读全文

相关推荐

Mac下anaconda中Spyder打开报错Traceback(most recent call last)…问题

linux 下 pip3 报错“ File “/usr/bin/pip3”, line 9, in from pip import mainImportError: canno”处理

pytorch数据预处理错误的解决

Traceback (most recent call last): File "C:\Users\yaoju\Desktop\pycuda.py", line 1, in <module> import pycuda.autoinit File "C:\Users\yaoju\Desktop\pycuda.py", line 1, in <module> import pycuda.autoinit ModuleNotFoundError: No module named 'pycuda.autoinit'; 'pycuda' is not a package

Traceback (most recent call last): File "C:\Users\test\Desktop\DIDI测试.py", line 13, in <module> extract_html_info(file_path) ^^^^^^^^^^^^^^^^^ NameError: name 'extract_html_info' is not defined

Traceback (most recent call last): File "C:/Users/郑紫晗/Desktop/测试.py", line 2, in <module> from docx import Document ModuleNotFoundError: No module named 'docx'

Traceback (most recent call last): File C:\Users\小杨\Desktop\Yang\Yang\lstm.py, line 78, in <module>

Traceback (most recent call last): File "C:/Users/郑紫晗/Desktop/测试.py", line 1, in <module> from pdfminer.high_level import extract_text ModuleNotFoundError: No module named 'pdfminer'

Traceback (most recent call last): File "C:/Users/lenovo/Desktop/1.py", line 1, in <module> import pygame ModuleNotFoundError: No module named 'pygame'

Traceback (most recent call last): File "C:/Users/asus/Desktop/无.py", line 1, in <module> import requests ModuleNotFoundError: No module named 'requests'

Traceback (most recent call last): File "C:/Users/Administrator/Desktop/1.py", line 1, in <module> import requests ModuleNotFoundError: No module named 'requests'

Traceback (most recent call last): File "C:\Users\Administrator\Desktop\MUSIC.py", line 3, in <module> from sklearn.ensemble import RandomForestRegressor ModuleNotFoundError: No module named 'sklearn'

Traceback (most recent call last): File "C:\Users\翁正杰\Desktop\shixi5.py", line 56, in <module> plt.figure()

Traceback (most recent call last): File "C:\Users\乐爷\Desktop\MQTTandUI.py", line 1, in <module> import paho.mqtt.client as mqtt ModuleNotFoundError: No module named 'paho'

Traceback (most recent call last): File "C:\Users\小杨\Desktop\models.py", line 21, in <module> from keras.layers.merge import _Merge ModuleNotFoundError: No module named 'keras.layers.merge'

Traceback (most recent call last): File "C:/Users/huawei/Desktop/想.py", line 32, in <module> if h.value>900: AttributeError: 'tuple' object has no attribute 'value' >>>

Traceback (most recent call last): File "C:\Users\13420\Desktop\511.py", line 15, in <module> inst2.write('REST')怎么解决

最新推荐

Mac下anaconda中Spyder打开报错Traceback(most recent call last)…问题

GitHub图片浏览插件：直观展示代码中的图像

管理建模和仿真的文件

【OPPO手机故障诊断专家】：工程指令快速定位与解决

求[100，900]之间相差为12的素数对（注：要求素数对的两个素数均在该范围内）的个数

Android IPTV项目：直播频道的实时流媒体实现

"互动学习：行动中的多样性与论文攻读经历"

【OPPO手机工程模式终极指南】：掌握这些秘籍，故障排查不再难！

前端在json文件里写模板，可以换行 有空格现在在文本框的时候

机器学习在医院再入院率预测中的应用分析

前端在json文件里写模板，可以换行有空格现在在文本框的时候