import os from bs4 import BeautifulSoup import re import csv import pandas as pd # 指定文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 正则表达式模式 pattern = r'<body>(.*?)<\/body>' # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: # 读取html文件 file_path = os.path.join(root, file) with open(file_path, "r", encoding="utf-8-sig") as f: html_code = f.read() # 创建BeautifulSoup对象 soup = BeautifulSoup(html_code, 'html.parser') # 使用正则表达式匹配<body>标签内的数据 body_data = re.findall(pattern, html_code, re.DOTALL) # 剔除<p>和()</p> body_data = body_data[0].replace("<p>", "").replace("()</p>", "") # # 使用正则表达式提取链接地址 matches2 = re.findall(r'(?:中发言|发送)\s*(.*?)\s*(?:音频 :|图片 :)?(?:\[([^\]]+)\])?', body_data) for match in matches2: # 提取链接地址 file_text = match[1] matches = re.findall(r'"([^"]*)"', file_text) if matches: file_name = matches[0] else: file_name = "No matches found." # print(file_name) # 替换字符 file_name = file_name.replace('No matches found.','')将上述file_name的结果添加到已有数据的csv文中,将其存放值在指定的file_name一列中
时间: 2024-04-21 13:23:09 浏览: 97
你可以使用`pandas`库来将`file_name`的结果添加到已有数据的CSV文件中,并将其存放在指定的`file_name`一列中。以下是一个示例代码:
```python
# 指定CSV文件路径
csv_file = "path/to/your/csv/file.csv"
# 读取CSV文件数据
data = pd.read_csv(csv_file)
# 创建新列并添加file_name的结果
data["file_name"] = file_name
# 将修改后的数据保存回CSV文件
data.to_csv(csv_file, index=False)
```
请注意,你需要将`path/to/your/csv/file.csv`替换为你实际的CSV文件路径。此代码将在CSV文件中创建一个名为`file_name`的新列,并将`file_name`的结果添加到每一行中。最后,它将保存修改后的数据回到CSV文件中,覆盖原有内容。
相关问题
import os import re from bs4 import BeautifulSoup # 指定文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: # 读取html文件 file_path = os.path.join(root, file) with open(file_path, "r", encoding="utf-8") as f: html_code = f.read() # 创建BeautifulSoup对象 soup = BeautifulSoup(html_code, 'html.parser')提取发送或发言的字符串
根据你提供的代码,你想遍历指定文件中的所有 HTML 文件,并使用 BeautifulSoup 提取其中包含 "发送" 或 "发言" 的字符串。
你可以使用 BeautifulSoup 的 `find_all()` 方法结合正则表达式来匹配包含特定字符串的文本内容。下面是一个示例代码,展示了如何修改你的代码来实现这一目标:
```python
import os
import re
from bs4 import BeautifulSoup
# 指定文件夹路径
folder_path = "C:/Users/test/Desktop/DIDItest"
# 遍历文件夹中的所有文件
for root, dirs, files in os.walk(folder_path):
for file in files:
# 读取html文件
file_path = os.path.join(root, file)
with open(file_path, "r", encoding="utf-8") as f:
html_code = f.read()
# 创建BeautifulSoup对象
soup = BeautifulSoup(html_code, 'html.parser')
# 使用正则表达式匹配包含 "发送" 或 "发言" 的文本内容
pattern = re.compile("(发送|发言)")
matched_strings = soup.find_all(text=pattern)
# 打印匹配到的字符串
for string in matched_strings:
print(string)
```
在上面的代码中,我们使用正则表达式 `(发送|发言)` 来匹配包含 "发送" 或 "发言" 的文本内容。然后,我们使用 `find_all()` 方法根据这个正则表达式模式找到所有匹配的结果,并将它们存储在 `matched_strings` 列表中。最后,我们遍历这个列表并打印出每个匹配到的字符串。
请注意,在使用正则表达式时,确保你的模式与实际文本内容匹配。如果没有找到匹配的结果,`matched_strings` 列表将是一个空列表。
希望这可以满足你的需求!如果你还有其他问题,请随时提问。
import os from bs4 import BeautifulSoup import re import csv import pandas as pd # 指定文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 正则表达式模式 pattern = r'<body>(.*?)<\/body>' # 创建CSV文件并写入表头 # CSV文件路径 csv_file = 'path/to/your/csv/file.csv' csv_file = "output.csv" # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: # 读取html文件 file_path = os.path.join(root, file) with open(file_path, "r", encoding="utf-8-sig") as f: html_code = f.read() # 创建BeautifulSoup对象 soup = BeautifulSoup(html_code, 'html.parser') # 使用正则表达式匹配<body>标签内的数据 body_data = re.findall(pattern, html_code, re.DOTALL) # 剔除<p>和()</p> body_data = body_data[0].replace("<p>", "").replace("()</p>", "") # # 使用正则表达式提取talk_id、时间、发送者ID和接收者ID matches2 = re.findall(r'(?:中发言|发送)\s*(.*?)\s*(?:音频 :|图片 :)?(?:\[([^\]]+)\])?', body_data) for match in matches2: # 提取链接地址 file_text = match[1] matches = re.findall(r'"([^"]*)"', file_text) if matches: file_name = matches[0] else: file_name = "No matches found." # print(file_name) # 替换字符 file_name = file_name.replace('No matches found.','') # 将提取的数据加载到DataFrame中 df_extracted = pd.DataFrame(file_name) # 读取原有的CSV文件 df_original = pd.read_csv(csv_file) print("---导入完成-----")
根据你的代码,你想将提取的文件名数据加载到一个DataFrame中,并将原有的CSV文件读取到另一个DataFrame中。然后,你可能想将提取的文件名数据写入已建的CSV文件中。以下是你可以继续完善的代码示例:
```python
import os
from bs4 import BeautifulSoup
import re
import csv
import pandas as pd
# 指定文件夹路径
folder_path = "C:/Users/test/Desktop/DIDItest"
# 正则表达式模式
pattern = r'<body>(.*?)<\/body>'
# 创建CSV文件并写入表头
csv_file = "output.csv"
header = ['File Name'] # 表头
# 首次创建CSV文件时,写入表头
if not os.path.exists(csv_file):
with open(csv_file, mode='w', newline='') as file:
writer = csv.writer(file)
writer.writerow(header)
# 遍历文件夹中的所有文件
for root, dirs, files in os.walk(folder_path):
for file in files:
# 读取html文件
file_path = os.path.join(root, file)
with open(file_path, "r", encoding="utf-8-sig") as f:
html_code = f.read()
# 创建BeautifulSoup对象
soup = BeautifulSoup(html_code, 'html.parser')
# 使用正则表达式匹配<body>标签内的数据
body_data = re.findall(pattern, html_code, re.DOTALL)
# 剔除<p>和()</p>
body_data = body_data[0].replace("<p>", "").replace("()</p>", "")
# 使用正则表达式提取文件名
matches = re.findall(r'"([^"]*)"', body_data)
if matches:
file_name = matches[0]
else:
file_name = "No matches found."
# 替换字符
file_name = file_name.replace('No matches found.', '')
# 将提取的数据写入CSV文件
with open(csv_file, mode='a', newline='') as file:
writer = csv.writer(file)
writer.writerow([file_name])
print("数据已成功写入CSV文件")
```
在上面的代码中,我添加了一些逻辑来创建CSV文件并写入表头。然后,使用`csv.writer`将提取的文件名写入CSV文件中的新行。请确保提供正确的文件夹路径和CSV文件路径,并根据需要调整代码。
阅读全文